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前 言 


神经 网 络 ， 或 者 更 精确 地 说 人 工 神经 网 络 ， 尾 一 种 依 根 于 许多 学 科 的 技术 ， 其 中 涉及 神 
经 科学 、 数 学 、 统 计 学 、 物 理学 、 计 算 机 科学 和 工程 学 。 神 经 网 络 具有 的 一 个 重要 性 质 ， 即 
在 有 教师 或 无 教师 的 情况 下 能 够 从 输 人 数据 中 进行 学 习 的 能 力 ， 这 使 得 它 在 不 同 领域 中 得 到 
诬 用 ， 如 建 模 、 时 间 序 列 分 析 、 模 式 识 别 、 信 叶 处 理 和 控制 。 

由 于 神经 网 络 具 有 多 学 科 性 ， 本 书 对 该 主题 进行 了 综合 论述 ， 并 给 出 了 大 量 例子 、 基 于 
计算 机 的 实验 、 习 题 以 及 参考 文献 进行 补充 分 析 。 

本 书 由 四 部 分 组 成 ， 组 织 如 下 : 

1. 介绍 材料 , 由 第 1 章 和 第 2 章 组 成 。 第 开 章 大 体 上 定性 描述 什么 是 神经 网 络 ， 它 们 的 
性 质 、 组 成 及 其 怎样 各 人工 智能 相 联系 。 这 章 以 一 些 历史 注释 结 来 。 第 2 章 提供 学 习 过 程 的 
许多 侧面 的 概述 及 甚 统计 性 质 。 沪 章 引 进 了 一 个 重要 概念 ， 即 Vapnik-Chervonenkis( YC) 维 数 ， 
用 于 度量 学 习 机 器 所 实现 的 一 篮 分 类 函数 的 容量 . 

2. 有 教师 学 习 机 器 ， 由 第 3 章 至 第 7 章 组 成 。 第 3 章 研究 这 部 分 中 最 简单 的 神经 阅 络 ， 
涉及 一 个 或 多 个 输出 神经 元 但 无 隐藏 神经 元 的 网 络 。 该 章 描述 最 小 均 方 (LMS) 算 法 (在 设计 
线性 自 适应 廊 波 器 时 非常 流行 ) 和 感知 器 收 伍 定 理 。 第 4 章 给 出 利用 反 向 传播 算法 训练 的 多 
层 感 知 器 的 完全 处 理 。 这 个 算法 (代表 LMS 算法 的 一 种 推广 ) 已 经 作为 塘 经 网 络 的 推进 器 而 
出 现 。 第 5 章 给 出 另 一 类 分 层 神经 网 络 即 径 向 基 函 数 网 络 详细 的 数学 处 理 ， 它 们 的 构成 包括 
一 层 基 冰 数 。 这 一 章 强调 在 设计 RBF 网 络 中 正则 化 理论 的 作用 。 第 6 章 描述 一 类 比较 新 的 
学 习 机 串 ， 即 支持 向 量 机 ， 它 的 理论 建立 在 第 2 章 给 出 的 统计 学 习 理 论 的 材料 上 。 本 书 第 二 
部 分 以 第 7 章 结束 ， 讨 论 委 员 会 机 器 ， 它 的 构成 包括 几 个 学 习 者 作为 组 成 部 分 。 在 这 .- 章 我 
们 描述 总 体 平均 ， 推 举 和 分 层 混 合 专家 三 种 不 同 的 构建 委员 会 机 器 的 方法 。 

3. 无 教师 学 习 宙 器 ， 由 第 8 章 至 第 12 章 组 成 。 第 8 章 把 Hebb 学 习 应 用 到 主 分 量 分 析 。 
第 9 章 把 自 组 织 学 习 的 另 一 形式 ， 也 就 是 竞争 学 习 、 应 用 于 构造 以 自 组 织 映 射 著 称 的 计算 映 
射 。 这 两 章 突 出 强调 学 习 规则 根植 十 神经 生物 学 。 第 10 章 注意 于 设计 无 监督 学 习 算法 的 信 
息 理 论 ， 强 调 它 们 在 建 横 、 图 像 处 理 和 独立 分 量 分 析 中 的 应 用 。 第 11 章 描述 植 根 于 和 信息 
理论 有 密切 关系 的 统计 力学 的 自 监督 学 习 机 器 。 第 12 章 ， 介 绍 动态 规划 和 它 与 增强 式 学 寻 
的 关系 。 

44. 非 线性 动态 系统 ,由 第 13 章 至 15 章 组 成 。 第 13 章 描 述 一 类 由 短期 记忆 和 分 层 前 馈 
阅 络 结构 组 成 的 动态 系统 。 第 14 章 强 调 久 及 使 用 反馈 的 非 线性 动态 系统 所 引起 的 稳定 性 问 
题 。 该 章 还 讨论 联想 记忆 的 例子 。 第 15 章 描述 另 一 类 非 线 性 动态 系统 ， 即 递归 网 络 ， 它 依 
项 于 使 用 反馈 完成 输入 - 输出 映射 。 

本 书后 记 简 要 描述 神经 网 络 在 构造 用 于 模式 识别 、 控 制 和 信号 处 理 的 乔 能 机 器 时 所 起 的 
作用 。 

本 书 的 组 织 在 神经 网 络 研究 生 课 程 的 使 用 上 给 予 了 很 大 灵活 性 ， 教 师 可 根据 需要 灵活 选 
择 讲 课 内 容 。 全 书 中 总 共 包括 15 个 基于 计算 机 的 实验 ， 其 中 有 13 个 实验 需 使 用 MATLAB。 
































MATIAB 实验 的 文件 可 直接 从 以 下 网 站 下 载 : 

名 ://fip.mathworks.eomjpubybooksjhaykin 

http://www.mathworks ,comy/books/ 

每 章 后 都 附 有 习 古 。 许 多 习题 具有 挑战 性 ， 不 仅 能 检查 本 书 的 使 用 者 对 本 书 所 包含 的 资 
料 掌 握 的 程度 ， 而 卫 扩 充 了 这 些 资 料 。 

工程 师 、 计 算 机 科学 家 和 物理 学 家 也 会 从 本 书 获 益 。 希 望 本 书 对 其 他 学 科 ， 如 心理 学 和 
神经 科学 的 研究 人 员 ， 也 会 有 所 帮助 。 


Simon Haykin 
于 Hamilton，Ontario 
1998 年 2 月 





缩写 和 符号 


artificial intelligence 人工 智 能 
adaptive principal components extraction 白 适 应 主 分 苦 分 析 
autoregressive “ 自 回归 





back propagation through Lime 通过 时 间 的 反 疝 传播 
Boltzmann machine “Bojtamnann 机 

back propagation ”反问 传播 

li per seeond 每 秒 比特 率 

bounded，one-sided saturation 有 和 界 ， 单 边 忆 和 
hrain-state-in-a-box 盒 中 脑 状 态 

Blind souree (signal) separation 育 源 (信号 ) 分 离 











elassification and regression tree ”分 类 和 回归 树 
corelation matrix memory ”相关 算 阵 记忆 
cross-validation ”交叉 确认 





decoupled extended Kalman filter 解 耦 扩展 Kalman 滤波 器 
detemministic finite-state automata ”确定 性 有 限 状 态 自动 机 
digital signal brocesser ”数字 信和 号 处 理 器 


extended Kalman filter 扩展 Kalman 滤波 器 
expectation-maximization ”期 望 最 天 化 


finite-duration impulse response 有限 时间 冲击 响应 
frequency-modulated (signadl) 频率 调制 (信号 ) 


到 obal extended Kalman filter 全 局 扩展 Kalman 滤波 器 
generalized cross-validation ”广义 交叉 确认 

generalized Hebbian algorithm ”广义 Hebb 算法 
generalized sidelobe canceler 广义 旁 瘀 消除 器 


hierarchical mixture of expert ”分 层 混合 专家 





HMM 
钙 


ICA 


Jnfomax 


KR 


hidden Markov model 陷 Markov 模型 
hertz ” 赫 效 


independent component analysis ”独立 分 量 分 析 
Paximum mutual information 最 大 疙 信息 


kemel zegression” 核 回归 


least-mean-square ”最 小 均 方 

Likeiihood ratio ” 似 然 比 

long-iemm potentiation ”长 期 电位 (LPT) 
lone-term depression 长 期 误 减 

likelihood ratio ” 似 然 比 

leamjng vector duantization 学 习 向 量 量化 


minor component analysis ”次 分 量 分 析 

minimum description length 最 小 措 述 长 度 

mixture ouf expert ”混合 雪 家 

mean-fietd theory ”平均 场 理论 

multiple input-multiple output 多 输入 多 给 出 
maximum likelihood 最 大 做 然 

mullilayer perceptron ” 移 层 感知 器 

Imodel reference adaptive control ”模型 参考 自 适 应 控制 











nonjinear autoregressive moying average 非 线性 自 回 归 滑 动 平均 

Ttonlinear autoregpessive with exogenous input 具有 外 部 输 和 人 的 非 线 性 自 回归 
neuron-dyrnamic programming 神经 动态 规划 

Nadarsaya-Watson (estimator) Nadaraya-Watson( 估 计 器 ) 

Nadaraya-Watson kemel regression ”Nadaraya-Watson 核 回 归 


optimal brain damage ”最 优 脑 损 伤 

optimal brain surgeon ”最 优 脑 外 科 

optical charaeter recognition ”光学 字符 识别 
ordinary differential equation ”党 微分 方程 





probably approximately correct ”可 能 近似 正确 
Prineipal component analysis” 主 分 量 分 析 
probability density fonction ”概率 密度 函数 
probability mass function ”概率 质量 函数 











RBF radial hasis funetion ” 径 向 基 函 数 
RMTP recurrent multilayer percepton ”递归 多 层 感知 器 
RORL real-time recurent leaming 实时 递归 学 习 
SIMO single input-multiple output 单 输入 多 输出 
SiS0 single input-single output 单 输入 单 输出 
SNR signal-to-noise matio ” 信 吧 比 
SOM self-organizing map ” 自 组 织 映 射 
SRN simple reourrent network( also refemed lo as Elman's recurrent network) 简单 递归 网 
络 (也 称 为 Elman 递归 网 络 ) 
SVD singular value decomposition 奇异 值 分 解 
SVM support veetor machine ”支持 向 大 机 
TDNN time-delay neural network ”时 延 神经 网 络 
TELFN time lagged feediorward networ 时 间 清 后 前 镇 网 络 
VC Vapnik-Cherrononkis (dimenaion) vapnik-Chervononkis( 维 数 ) 
YLST very-large-acale integration 超大 规模 集成 
XOR exclusive OR。 蜡 或 
重要 的 符号 
区 action 动作 
ab inner product of vectors a and b 向 量 a 和 的 内 积 
ab output product of vectors a and b 问 量 a 和 hh 的 外 积 
( 】 binomial coefficient ”二 项 式 系数 
本 
全 同 召 unions of 4 and 召 4 和 召 的 并 
妃 inverse of iemperature ”温度 的 逆 
本 bias applied to neuron 大 神经 元 堪 的 偏 置 


cos(a，b) cosine af the angle between vectors a and b 向 量 a 和 hb 来 角 的 余弦 


万 depth of memary 。 沁 忆 深度 

Dr Kanllback-Leibler divergence between jprobability density functions and g ”概率 密度 函 
数 / 和 & 之 间 的 Kullback-Leibler 散 度 

证 adjoint of operator D ” 算 子 卫 的 伴随 

百 energy fanction ”能 量 函 数 

书 energy of state in statistical mechanics ”统计 力学 中 状态 让 的 能 量 

吾 statistical expectation operator 统计 期 望 算 子 








PCelE) 


average enetgy “平均 能 量 

enmor function ” 泥 差 函 数 

compjimentary emmor fonotion 肖 差 函数 的 补 

exponential “指数 

average squared emor or surm of squared eror 平均 平方 误 差 或 平方 误差 和 
instantaneous value of the sum of squared eror 平方 误差 和 的 瞬时 值 

total sum of emor squares ”总 平方 误差 和 

free energy “和 白 出 能 量 

probability density fonction of random vector X 随机 向 量 X 的 概率 密度 函数 

subset (network) with the smallest minimum empirical risk 经验 风险 最 小 值 最 小 的 
子 集 (网 络 ) 

Hessian matrix ”Hessian 矩阵 

jnverse of matrix 卫 和 撼 阵 再 的 道 

square root of - 1，also denoled by/ - 1 的 平方 根 ， 亦 记 作 了 

identity matrix 单位 算 阵 

Mishers infonmation matrixk Fisher 信息 和 矩阵 

mean-square errmor 平均 平方 误差 

Jacobian matrix ”jacobi 矩阵 

emror covariance matrix 和 Kalman filter theory ”Kaiman 滤波 理论 中 的 误差 协 方差 矩 
阵 

square root of matrix 发” 上 阵 下 的 平方 根 

transpose of square root of matrix 必 ” 惩 阵 攻 的 平方 根 的 转 灶 

Boltzmann constant Boltzmam 常数 

logarithm ”对 数 

log-likelihood function of weight vector w， 权 值 向 量 w 的 对 数 似 然 枉 数 
log-likelihood fanction of weight vector w hased on a single example 单 样本 的 权 值 向 
量 w 的 对 数 似 然 函 数 

cantmilability matnix 可 控 性 甜 阵 

observability matrix ”可 观察 性 矩阵 

discrete time ”离散 时 间 

probability of state 这 in statistical mechanics ”统计 力学 中 状态 让 的 概率 

transition probability from state i to state 太 从 状态 ; 到 状态 /的 转移 概率 
stochastic matix 随机 第 阵 

Probability of corect classifcation ”正确 分 类 的 概率 

Probability of emor 误差 概率 

conditional probability of emor e 可 ven that the input is drawn fron class 从 类 % 中 输 
人 时 误差 e 的 条 件 概率 


Probability that the visible neurons of a Boltzmann machine are in state a，given that the 
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network js in its clamped condition(i.e. ,positive phase) 候 没 网 络 处 于 和 争 制 条 件 ( 即 
正 向 阶段 ) 时 ，Boltzanann 机 的 可 见 神经 元 状态 为 “的 概率 

Probability that the visible neurons of a Boltzmann machine are in state a，&iven that the 
netwok is in ia free-maunning condirion(i.e. ,negative phase) 人 恨 投 网 络 处 于 自由 运 
行 条 件 ( 即 负 向 阶段 ) 时 ，Boltzanann 机 的 可 见 神经 元 状态 为 = 的 概率 

estimate of autocorrelation function of xi (nz) and x(n)》 5(n 利 习 (a) 的 上 折 相 关 函 
数 估 计 

estimate of cross-correlalion function of df nm) and xtfKn) Zn 和 Cn) 的 交叉 相关 
函数 佑 计 

eormelation matrix of an input vector 输入 向 量 的 由 关 抢 阵 

continuous time ”连续 时 间 

temperature ”温度 

training set(sample) 训练 集 ( 样 本 ) 

trace of a matrix operator ”矩阵 算 子 的 迹 

variance operator 方差 算 子 

Lyapunov function of state vector X 状态 向 星 x 的 Tyapunov 本 数 

indueed loeal field or aetivation poteotial of neuron 7 神经 元 了 的 诱导 局 部 域 或 激活 
庆 执 

optimum value of synaptic weight vector 突 触 权 值 向 量 的 最 优 值 

symaptic weight of synapse /belonging to neuron 大 属于 神经 元 上 的 突 触 六 的 突 触 权 
值 
optimum weight veetor 最 优 权 慎 癌 其 

equilibrium value of stale vectorx 状态 向 量 x 的 平衡 值 

average of state 4 in a "thermmal”sense “ 热 " 意 义 下 状态 光 的 平均 

estimate of x ，signified by the use of sa caret(hat) xz 的 估计 ， 用 加 字符 号 "( 帽 符 
号 ) 表 示 

absohnte valuefmagnitude) of xx 的 绝对 值 (幅度 ) 

eomplex conjugate of x ，signified by asterisk as superscript 状态 x 的 复 共 罗 ， 用 星 
号 * 作 上 标 

Euclidean nomm (length) ef vectorx 加 量 区 的 欧 几 里 德 范 数 (长 度 ) 

transpose of veetor x，signified by the superscript 了 向 量 x 的 转 置 ， 用 上 标 了 表示 
unit delay operator 单位 延迟 算 子 

partition fanction 剂 分 函数 

loeal gradient of neuron at time & 神经 无 了 在 时 刻 a 的 局 部 梯度 

small change applied to weight z。 权 值 zw 的 微小 改变 

gradient operator ”梯度 算 子 

Laplacian operator Laplace 算 子 

gradient o J with respect to 由 了 关于 vw 的 梯度 








只 


VEF divergence of vectorE 向 量 了 的 散 度 

了 Jeaming-rate parameter 学 习 率 参数 

四 cumulant ”图 积 量 

上 Policy ”策略 

四 threshold appjied lo neuron 天 (ie. ,nepgative of bias 久 )》 神经 元 天 的 阔 值 ( 即 假 置 六 
的 负 值 》 

入 regularization parameter 正则 化 参数 

和 天 了 eigenvalue of a square matrix 方 阵 的 第 夺 个 特征 值 

Se) nonlinear activation function of neuron 友 。 神 经 元 撕 的 非 线性 激活 函数 

扣 symbol for“belong to”“ 属 于 ” 符 苇 

U symboil for union of”“ 并 "符号 

站 symbol for “intersection of”“ 交 ” 符 寻 

x symbal for convolution “ 卷 积 "符号 

十 superseript symbol for pseudoinverse of a matrix ”矩阵 以 道 的 上 标 符号 

开 区 间 和 闭 区 间 


*。 变量 * 的 开 区 间 (a,a ) 表 示 ae <x< 

*。 变量 * 的 闭 区 间 [e,a ] 表 示 se 生 xb 

*。 变量 * 的 半 财 半 开 区 间 [ e ,5 ) 胡 示 sx< bi 类 似 地 ， 变 量 * 的 半 开 半 闲 区 间 (e,b ] 表 
示 <x 二 ba 


最 小 和 最 大 


”符号 ag minA(w) 表 示 函 数 九 w) 关 于 变 元 向 量 w 的 最 小 值 。 
”符号 ag max/(w) 表 示 函 数 由 w) 关 于 变 元 向 景 w 的 最 大全。 
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第 1 章 导 


1.1 什么 是 神经 网 络 


自从 认识 到 人 脑 的 计算 与 传统 的 数字 计算 机 机 比 是 完全 不 同 的 方式 开始 ， 关 于 人 工 神经 
网 络 ( -- 般 称 为 “神经 网 络 ") 的 人 研究 工作 就 开始 了 。 人 脑 是 一 个 部 度 复杂 的 、 非 线性 的 和 并 
行 的 计算 机 器 (信息 处 理 系统 )。 人 脑 能 够 组 织 它 的 组 成 成 分 ， 即 神经 元 ， 了 以 比 今天 已 有 的 最 
快 的 计算 机 还 要 锯 许 多 倍 的 速度 进行 特定 的 计算 (如 模式 识别 、 感 知 和 运动 神经 控制 )。 例 
如 , 考虑 人 类 视觉 ， 这 是 个 信息 处 理 的 任务 (Marr, 1982; Lerine, 1985; Churehland and 
Sejnowski, 1992)。 视 觉 系 统 功 能 是 为 我 们 提供 一 个 关于 周围 环境 的 表示 ， 并 且 更 重要 的 是 提 
供 我 们 和 环境 交互 所 需 的 信息 。 上 具体 讲 ， 完 成 “个 感知 识别 任务 (例如 识别 一 张 被 车 人 亲 生 
场景 的 熟悉 的 脸 ) 人 脑 大 概 需要 100 ~ 200 毫秒 ， 而 人 台 传 统 的 计算 机 却 变 花费 下 天 时 间 才 能 
完成 一 个 相对 简单 得 多 的 任务 。 

再 举 一 个 例子 : 考虑 一 只 蝙蝠 的 声 纳 。 启 纳 就 是 -一 个 活动 回声 定位 系统 。 除 了 提供 目标 
(例如 飞行 的 昆虫 } 有 多 远 的 信息 外 ， 蝙 晤 的 声 纳 可 以 搜集 目标 的 相对 速度 、 日 标 大 小 、 目 标 不 
同 特征 的 大 小 以 及 它 的 方位 角 和 仰角 的 信息 (Suga,1990a,b)。 所 有 信息 都 从 目标 的 回声 中 提取 ， 
而 所 有 需要 的 复杂 神经 计算 只 人 在 李子 般 大 小 的 脑 中 完成 。 事 实 上 ， 一 只 回声 定位 的 蝙 师 可 以 灵 
巧 地 以 很 高 的 成 功率 追逐 和 捕捉 日 妹 ， 这 一 点 可 以 让 雷达 或 声 纳 工程 师 们 自 到 咎 如 。 

那么 ， 人 脑 或 蝙蝠 的 脑 是 如 何 做 到 这 一 点 的 呢 ? 脑 一 出 生 就 有 精 与 的 构造 和 具有 通过 我 
们 通常 称 为 "经验 " 而 建立 它 自己 规则 的 能 少 。 确 实 ， 经 验 是 经 时 间 积 累 的 ， 人 脑 在 出 生 后 头 
两 年 内 发 牛 了 最 戎 剧 件 的 发 展 ( 即 硬 连 接 )， 但 是 发 展 将 超越 这 个 阶段 并 继续 进行 。 

一 个 "发展 中 "的 神经 元 是 与 可 粗 的 人 脑 同 义 的 。 可 塑性 多 许 一 个 发 展 中 的 神经 系统 适应 
它 的 周边 坏 境 。 可 槛 性 似乎 是 人 脑 中 作为 信息 处 理 单元 的 神经 元 的 功能 的 关键 ， 问 人 样 ， 它 在 
大 工 神经 元 组 成 的 神经 网 络 中 亦 是 如 此 。 最 普通 形式 的 神经 网 络 就 是 对 人 脑 完成 特定 任务 或 
感 兴趣 功能 的 方法 进行 建 模 的 机 器 ; 网 络 一 般 用 电子 器 件 实现 或 者 用 软件 在 数字 计算 机 上 模 
拟 。 人 在 本 书 中 , 我们 主要 介绍 重要 的 神经 网 络 ， 这 种 网 络 通过 学 习 过 程 来 实现 有 用 的 计算 。 
为 了 获得 好 的 结果 ， 神 经 网 络 使 用 一 个 很 庞大 的 简单 计算 单元 间 的 由 巨 连接 ， 这 些 简单 计算 单 
元 称 为 "神经 元 "或 者 “处 理 单元 "。 据 此 我 们 给 出 将 神经 网 络 看 作 一 种 自 适应 机 器 的 定义 上 : 

一 个 神经 网 络 是 一 个 由 简单 处 理 元 构成 揭 规 模 宏 大 的 并 行 分 布 式 处 理 器 。 天 然 具 有 存储 
经 验 知识 和 使 之 可 用 的 特性 。 神 经 网 络 在 两 个 方面 与 人 脑 相 似 : 

1. 神经 网 络 获取 的 知识 是 从 外 界 环境 中 学 习 得 来 的 。 

2. 互 连 神经 元 的 连接 强度 ， 即 突 触 权 值 ， 用 于 钳 存 获取 的 知识 。 


用 于 完成 学 习 过 程 的 程序 称 为 学 习 算法 ， 其 功能 是 以 有 序 的 方式 改变 网 络 的 突 触 权 值 以 
获得 得 此 的 设计 目 慰 。 
突 触 权 值 修改 提供 神经 网 络 设计 的 传统 方法 。 这 种 方法 和 线性 自 适应 泪 波 器 理论 很 接 






























































加 





2 友 7 胆 





近 。 滤波 器 理论 已 经 很 好 地 建立 起 来 并 成 功 应 用 在 很 多 领域 (Widrow and Steams,1985; Haykin 
1996)。 介 是 神经 网 络 修 收 它 昌 身 的 拓扑 结构 亦 是 可 能 的 ， 这 也 和 人 脑 的 神经 元 会 死亡 和 新 
的 突 触 连接 会 牛 长 的 情况 相 适 应 。 

神经 网 络 在 文献 中 也 称 为 神经 计算 机 、 连 接 主 义 网 络 、 并 行 分 布 式 处 理 器 等 。 本 书 一 律 
使 用 "神经 网 络 " 这 个 术语 ， 偶 尔 也 用 "神经 订 [ 算 机 ”或 “连接 主义 网 络 "。 


神经 网 络 的 优点 


神经 网 络 的 计算 能 力 很 明显 有 以 下 两 点 : (1) 大 规模 并 行 分 布 式 结构 。(2) 神 经 网 络 学 习 
能 力 以 及 上 此 侧 来 的 泛 化 能 力 。 泛 化 是 指 神经 网 络 对 不 在 训练 (学 习 ) 集 中 的 数据 可 以 产生 合 
理 的 输出 。 这 两 种 信息 处 理 能 力 让 神经 网 络 可 以 解决 - 些 当前 还 不 能 处 理 的 复杂 的 (大 型 ) 问 
题 。 但 是 企 实践 中 ， 神 经 网 络 不 能 单独 做 出 解答 ， 它 们 需要 被 整合 在 一 个 协调 . 致 的 系统 工 
程 方法 中 。 具体 讲 ， 一 个 复杂 问题 御 往 被 分 解 成 若 十 相对 简单 的 和 任务， 前 神经 网络 处 理 与 
能 力 相 符 的 子 任务 。 但 是 ,我 们 在 建立 一 个 可 以 模拟 人 脑 的 计算 机 结构 (如 果 可 能 ) 之 前 还 有 
很 长 路 要 走 ， 认 识 这 一 点 是 很 重要 的 。 

神经 网 络 具 有 下 询 性 质 和 能 力 : 

1 非 线性 。- -个 人 二 神经 元 可 以 是 线性 或 者 嘴 非 线性 的 。 一 个 由 非 线 性 神经 元 互联 亨 成 
的 神经 网 络 自身 是 非 线性 的 ， 并 且 非 线性 是 一 种 分 布 于 整个 网 络 中 的 特殊 性 质 。 非 线性 是 一 个 
很 重要 的 性 质 ， 特 别 当 如 果 产 生 输 人 信号 (如 语音 信号 ) 内 部 的 物理 机制 是 大 牛 非 线性 时 。 

2. 输入 给 出 映射 。 有 监督 学 习 或 育 教师 学 习 是 一 个 学 习 的 流行 范例 ， 涉 及 使 用 带 标号 
的 训练 样本 或 任务 例子 对 神经 网 络 的 突 触 权 值 进行 修改 。 每 个 样本 由 一 个 惟一 的 输入 信号 和 
相应 期 望 响 应 组 成 。 从 一 个 训练 集中 随机 选取 一 个 样本 给 网 络 ， 网络 就 调整 它 的 突 触 权 值 ( 自 
由 参数 ) ， 以 最 小 化 期 望 响应 和 由 输 人 信号 以 适当 的 统计 准则 产生 的 实际 响应 之 间 的 差别 。 使 
用 训练 集中 的 很 多 例子 重复 神经 网 络 的 训练 。 刀 到 网 络 到 达 没有 显著 的 突 触 权 值 修正 的 稳定 状 
大 为止 。 先 前 用 过 的 例子 可 能 还 此 在 训练 期 间 以 不 同 顺序 重复 使 用 。 因 此 对 当前 问题 网 络 通过 
建立 输入 输出 哑 射 从 例子 中 进行 学 习 。 这 样 一 个 方法 使 人 想起 了 无 参数 统计 推断 的 研究 ， 它 是 
非 模型 估计 的 统计 处 理 的 一 个 分 支 ， 或 者 从 生物 学 角度 看 ， 称 为 bula mmsa 学 习 (Ceman st 中 .， 
1992)。 这 儿 使 用 " 非 参 数 "表示 的 一 个 事实 是 ,没有 对 答 和 数据 的 统计 模型 作 任 何 先 验 假设 。 比 
如 ， 考 虑 一 个 樟 式 分 类 任务 ， 这 里 的 要 求 是 把 代表 具体 物体 或 事件 的 输 人 信号 分 类 到 几 个 镍 先 
分 好 的 类 中 去 。 在 这 个 问题 的 非 参 数 方法 中 ， 要 求 利 用 例子 集 “ 估 计 " 输 和 信号 空间 中 模式 分 类 
和 任务 的 任意 判决 边界 ， 并 且 不 使 用 概率 分 布 模型 。 有 疏 督 学 习 范 例 隐 含 了 一 个 类 似 的 观点 ， 这 
提示 神经 网 络 的 输入 输出 映射 和 非 参数 统计 推断 之 各 的 一 个 相近 的 类 比 。 

3. 适应 性 。 神 经 网 络 庶 人 了 一 个 调整 白 身 突 触 权 值 以 适应 外 界 变化 的 能 力 。 特 别 是 ， 
一 个 在 特定 适 行 环 境 下 接受 训练 的 神经 网 络 ， 对 环境 条 件 不 大 的 变化 可 以 容易 进行 重新 训 
练 。 而 且 ， 当 它 在 一 个 时 变 环境 ( 即 它 的 统计 特性 随时 间 变 化 ) 中 运行 时 ， 网 络 突 触 权 值 就 可 
以 设计 成 随时 间 变 化 。 用 于 模式 识别 、 信 和 苇 处 理 和 控制 的 神经 网 络 与 它 的 自 适应 能 力 耦 合 ， 
就 可 以 变 成 能 进行 自 适应 模式 识别 、 白 适应 信号 处 理 和 上 自 适 应 控制 的 有 效 工具 。 作 为 一 个 一 
般 规则 ， 在 保证 系统 保持 稳定 时 一 个 系统 的 自 适应 性 越 好 ， 当 此 求 在 一 个 时 变 环境 下 运行 时 
它 的 性 能 就 越 具 鲁 棒 性 。 但 大， 需要 强调 的 是 ， 白 适应 性 不 一 定 导致 潮 棒 人 性， 实际 可 能 相 
反 。 比 如 ， 一 个 暂 态 自 适应 系统 可 能 变化 过 快 ， 以 至 对 寄生 干扰 有 反应 ， 这 将 引起 系统 性 能 




























































































六 


了 





的 急剧 恶化 。 为 最 大 限度 实现 自 适应 性 ， 系 统 的 主要 时 间 

而 短 到 可 以 反应 环境 的 重要 变化 。 这 是 一 个 稳定 性 - 可 慢 
和, 证据 响应 。 在 模式 识别 的 问题 中 ， 神 经 网 络 可 

定 模式 的 信息 ， 也 提供 决策 的 置信 度 的 信息 。 后 将 本 

网 络 的 分 类 性 能 就 会 改善 - 

*。 神 经 网 络 的 特定 结构 和 激发 状态 代表 知识 。 网 络 中 每 -个 神经 元 潜在 部 爱 


式 。 有 这 些 信 
5 背景 








网 络 中 所 有 其 他 神经 元 全 月 活动 的 影响 。 
6. 容错 性 。 一 个 以 硬件 形式 实现 后 的 神经 网 络 有 天 生 容 错 的 潜质 ， 




















此 ， 背 景 信 息 自 然 出 一 个 神经 网 











力 ， 意 即 它 的 性 能 在 不 利 运行 条 件 
模式 的 回忆 在 质量 上 被 前 绊 。 但 是 ， 
恶化 之 前 这 种 损坏 是 分 散 的 。 因 此 ， 
是 灾难 性 的 失败 。 有 一 些 关于 和 鲁 棒 性 
事实 上 的 容错 性 ， 有 必要 在 设计 训练 


7.VLSI 实现 。 神 经 网 络 的 大 规模 并 行 








特性 使 得 神经 网 络 很 适合 








逐渐 
由 于 网 络 信息 存储 的 分 布 特性 ， 在 
原则 上 一 个 神经 网 络 的 性 能 显示 








常数 应 该 长 到 可 以 筷 略 寄生 干扰 ， 
隆 困境 (Crossberg,1988b) - 

[以 设计 成 既 提 供 不 限 于 选择 哪 一 个 特 
以 用 米 拒 判 那 些 出 规 的 过 于 模 类 的 模 


络 处 理 。 
或 者 鲁 棒 计 算 的 能 


降 。 比 如， 一 个 神经 元 或 它 的 连接 损坏 了 ， 存 储 


网 络 的 总 体 响 应 严重 
了 一 个 缓慢 恶化 而 不 





:计算 的 经 验证 据 ， 但 通常 它 是 不 可 


控 的 。 为 了 确保 网 络 


网 络 的 算法 时 采用 正确 的 度量 (Kertirein and Vallet,1993)。 
性 使 它 具 有 快速 处 理 某 些 任务 的 潜在 能 力 。 这 一 
超大 规模 集成 (yery-large-scale-integrated,VLSD 技 术 实 需 。VJSI 的 


一 个 特殊 优点 是 提供 一 个 以 高 度 分 层 的 方式 捕捉 真实 复杂 性 行为 的 方法 。 





8. 分 析 和 设计 的 一 致 性 。 基 本 上 ， 





是 在 这 样 的 意义 下 ， 即 涉及 神经 
方式 表现 出 来 : 
*” 神经 元 : 不 管 形式 如 何 ， 
” 这 种 共性 使 得 在 不 同 应 用 








络 的 应 所 





” 模块 化 网 络 可 以 用 襟 块 的 元 颖 集成 来 实现 。 





9, 神经 生物 类 比 。 神 经 


神经 网 络 作为 信息 处 理 器 具有 通用 性 。 我 们 这 样 说 
的 所 有 领域 都 使 用 同样 记号 。 


这 种 特征 以 不 同 的 


在 所 有 的 神经 网 络 中 都 代表 一 个 相同 成 分 。 
中 的 神经 网 络 共享 相 癌 的 理论 和 学 习 算法 成 为 可 能 。 


网 络 的 设计 是 由 对 人 脑 的 类 比 引发 的 ， 人 脑 是 一 个 容错 的 并 行 


处 理 的 活生生 的 例子 ， 说 明 这 种 处 理 不 光 在 物理 上 可 实现 的 而 且 还 是 快速 高 效 的 。 神 经 生物 


学 家 将 (人 工 ) 神 经 网 
经 生 
解决 的 问题 更 复杂 。 

。 在 Anastasio( 











1 章 里 详细 描述 的 递归 网 络 的 神经 
VOR) 是 眼球 运动 系统 的 一 部 分 ， 其 作用 是 让 
以 维持 祝 觉 (视网膜 ) 图 像 的 稳定 性 。 
元 从 前 庭 感知 神经 元 中 接受 头 部 旋转 信息 并 处 理 ， 将 结果 告知 腿 球 肌肉 的 动 
元 。 输 人 ( 头 部 旋转 信息 ) 和 给 出 (中 球 旋转 
蓝 。 盟 外 ， 它 是 比较 简单 的 反射 作用 


化 了 > 这 些 模型 对 解释 YOR 


解 却 用 处 不 大 。 这 种 情况 通过 神经 网 


网 络 模型 。 前 庭 视 觉 反射 ( 
眼球 向 与 头 转动 方 











) 可 以 精确 确定 ， 因 





， 并 

















的 整体 性 质 有 一 些 作 








， 但 是 对 





此 VOR 很 适合 
旦 其 组 成 神经 元 的 神经 生理 学 的 内 容 已 经 
被 很 好 阐述 。 在 三 种 神经 类 型 中 ， 前 端 神 经 元 (反射 内 层 神经 元 ) 在 前 庭 神 经 核酸 中 
是 最 复杂 也 是 最 引 人 注 意 的 。YOR 以 前 已 经 用 


络 看 作 是 一 个 解释 神经 生物 现象 的 研究 工具 。 另 一 方 而 ,工程师 注 意 神 
网 学 是 将 其 作为 解决 复杂 问题 的 新 思路 ， 这 些 问题 比 基 于 常规 的 硬件 线路 设计 技术 所 能 
下 面 两 个 例子 说 明了 这 两 种 观点 ， 
1993) 中 ， 比 较 了 前 庭 视觉 反射 的 线 性 系统 模型 和 基于 在 1.6 节 描述 及 第 


vestibulu-ocuiar reflex， 


向 相反 的 方向 运动 ， 


VYOR 由 前 庭 核酸 的 前 端 神经 元 调 入 ， 前 端 神经 


FE 神经 
来 建 














集 块 线性 系统 描述 器 和 控制 理论 模型 
其 组 成 神经 元 特性 的 了 
络 的 模型 已 经 被 大 大 改善 了 。VOR 的 递归 网 络 





模型 (使 用 第 15 章 描述 的 实时 递归 学 习 算 法 设计 ) 能 重 现 和 解释 调节 VOR 的 神经 元 
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的 洗 多 特性 ， 包 括 处 理 信 和 叶 时 的 静态 、 动 态 、 非 线性 和 分 布 式 特性 ， 特 别 是 前 庭 核 
酸 神经 下 (Anastasio,1993)、 

。 视网膜 不 同 于 人 脑 的 其 他 任何 部 分 ， 是 我 们 开始 将 外 部 环境 的 物理 图 像 投 射 到 一 行 
接受 器 上 形成 的 视觉 表示 利 第 一 个 神经 图 像 结合 的 地 方 。 它 是 眼球 后 部 的 神经 组 织 
薄 层 ， 其 功能 是 将 光学 图 像 转 柳 成 神经 图 像 并 沿 光 神经 传输 给 大 量 的 视觉 中 枢 以 便 
进一步 处 理 。 这 是 一 个 复杂 的 工作 ， 可 以 从 视网膜 的 突 触 组 织 得 到 证 明 。 在 疹 椎 动 
物 的 视网膜 由 ， 光 图 像 转 化 成 神经 图 像 的 过 程 由 三 个 阶段 组 成 (Sterling,1990) ， 

(人 受 体 神经 元 层 的 图 像 传导 。 

《这 结果 信号 (对 光 刺 激 的 反应 产生 ) 由 化 学 性 突 触 传输 给 一 层 双 极 细胞 。 

( 草 ) 同 样 ， 由 化 学 优 突 触 把 结果 信号 传 给 称 为 神经 节 细 胸 的 输出 神经 元 。 

在 两 个 突 触 阶段 ( 即 从 受 体 到 愉 极 细胞 和 从 双 极 细胞 到 神经 节 细 胞 ) ， 有 专门 侧 向 连 
接 的 分 别称 为 水 平 细胞 的 神经 元 和 无 长 突 细胞 的 神经 元 。 这 些 神经 元 的 工作 是 修改 
突 触 层 之 问 的 传输 。 另 外 有 被 叫做 中 间 网 状 细胞 的 离心 元 索 ; 它们 的 工作 是 将 信号 
从 内 部 突 触 层 传 到 外 部 突 触 层 。 一 些 研究 人 员 已 经 建立 了 模拟 视网膜 结构 的 电子 芯 
片 (Mahowald and Meaqd ,1989; Boahen and Ardreou,1992; Boahen, 1996)。 这 些 电子 芯片 称 
为 神经 形态 集成 电路 ， 这 个 术语 由 Mead(1989) 所 创造 。- -个 神经 形态 的 图 像 传感器 
由 一 排 感光 器 与 每 个 图 形 元 素 (像素 ) 的 模拟 回路 结合 而 成 。 它 能 模拟 视网膜 适应 局 
部 的 亮度 变化 、 检 测 边缘 和 检测 运动 。 神 经 生物 学 模拟 ， 例 如 神经 形态 集成 电路 ， 
有 另 一 个 重 缆 的 应 用 : 它 提供 一 种 希望 和 信念 ， 并 在 一 定 穆 度 上 提供 一 种 存在 性 证 
明 ， 即 对 神经 生物 结构 的 物理 上 的 了 解 对 电子 学 工艺 和 超大 规模 集成 电路 技术 有 多 
方面 的 影响 。 

有 了 神经 牛 物 学 的 启东， 我 们 对 人 脑 及 其 组 织 的 结 亿 层次 作 简要 的 考察 看 来 是 合适 的 。 


1.2 人 脑 


人 的 神经 系统 可 看 作 3 阶段 系统 ， 如 同 图 1-1 所 描绘 的 框图 。 系 统 的 中 央 是 人 脑 ， 由 神 
经 网 络 表示 ， 亡 连续 地 接收 信息 ,感知 它 并 做 出 适当 的 决定 。 图 中 有 两 组 箭头 ， 从 左 到 右 的 
箭头 表示 携带 信息 的 信号 通过 系统 向 前 传输 ， 从 右 到 左 的 箭头 表示 系统 中 的 反 司 。 感 受 器 把 
人 体 或 外 界 环境 的 刺激 转换 成 电 冲 击 ， 对 神经 网 络 (大 脑 ) 传 送信 息 。 神 经 网 络 的 效应 器 转换 
神经 网 络 产生 的 电 神 击 为 可 识别 的 响应 作为 系统 输出 。 

由 于 Rambry Cajal(1911) 的 开创 性 工作 (他 引 人 和 神经 元 作为 人 脑 结构 成 分 的 思想 ) ， 理 解 
人 脑 的 努力 已 经 简单 多 了 。 通 常 ， 神 经 元 比 硅 池 和 辑 门 要 慢 5 到 6 个 数量 级 ; 硅 尿 辑 门 中 的 事 
件 发 生 在 纳 秒 (10”s) 级 ， 而 在 神经 中 的 事件 发 生 在 童 秒 (10"3s) 级 。 但 是 人 脑 由 运行 速度 相 
对 较 烛 的 神经 元 构成 ， 神 经 元 (神经 细胞 ) 数 目 确实 惊人 ， 而 且 它 们 之 间 具 有 大 量 的 五 联 。 估 
计 人 的 皮质 有 大 约 100 亿 神 经 元 和 大 约 6 亿 沙 突 触 或 连接 (Shepherd and Koch,1990)。 脑 中 的 网 
络 是 高 效 结构 。 特 别 是 ， 脑 的 能 量 效率 -一 一 
每 秒 每 个 操作 大 约 为 1 “焦耳 ， 而 今 “刺激 ->| 威 受 朵 “| “| 可 经 网 络 “| 效应 里 “| > 山 应 
天 所 用 的 最 好 计算 机 的 相应 值 是 每 秒 竺 站 [| 
个 操作 大 约 10… 焦 耳 (Faggin,1991)。 

突 触 是 调节 神经 元 之 加 相互 作用 的 



















































































































































































图 !-1 神经 系统 的 框图 表示 





至 这 3 





时 本 结构 和 功能 单位 。 最 普通 的 一 类 突 触 是 化 学 突 触 ， 它 运行 如 下 。 前 突 触 过 程 释 放 发 送 器 物 
质 ， 扩 散 到 神经 元 之 间 的 突 触 连接 ， 然 后 作用 玉 后 突 拔 过 程 。 这 样 突 触 就 完成 了 突 触 前 端的 电 
信和 号 和 化 学 信和 叶 的 转换 ， 然 后 返回 突 触 后 端 电信 导 (Shepherd and Koch,1990)。 用 电学 术语 ,这 
样 的 元 素 称 为 非 互 北 的 两 六 口 设备 。 在 传统 的 神经 组 织 描述 中 ， 仪 很 设 帘 触 用 一 个 简单 的 连 
接 ， 能 加 载 兴 埋 或 抑制 ， 但 不 同时 作用 在 接受 神经 元 。 

我 们 曾 提 到 过 ， 可 塑性 允许 发 展 神经 系统 以 适应 周边 环境 ( Eggemmont, 1990; Churchland 
and Sejnowski,1992)。 在 成 年 人 的 脑 中 ， 可 敢 性 可 以 解释 两 个 机 能 ; 创建 神经 元 间 的 新 连接 
和 修改 连接 。 抽 突 ( 即 传导 线路 和 树 突 ( 即 接受 区 域 ) 组 成 两 种 细胞 长 纤维 ， 它 们 在 形态 上 互 
相 区 别 ， 轴 突 有 光华 的 表面 ， 较 少 的 分 支 ， 比 较 长 ， 而 树 罕 正 相反 (之 所 以 这 样 称呼 是 因为 
它 和 树 相似 )}， 它 有 不 规则 的 表面 和 更 多 的 分 支 ( Freenan,1975)。 脑 中 的 不 同 部 分 有 很 多 种 形 
状 和 大 小 的 神经 元 。 图 1-2 是 一 种 锥 形 细 胞 ， 它 在 脑 皮 层 中 是 常见 的 。 和 其 他 许多 神经 元 一 
样 ， 它 从 树 突 刺 接收 大 部 分 输 和 人 信 导 ， 可 以 从 图 1-2 中 看 到 树 突 片段 细节 。 锥 形 细胞 可 以 有 















































图 1-2 锥 形 绝 胞 
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喜 7 划 


一 万 个 或 更 多 的 罕 触 与 其 他 细胞 连接 ， 它 可 以 投射 到 数 以 千 计 的 日 标 细胞 、 
大 多 数 神经 元 把 它们 的 输出 转化 成 一 系列 简短 的 电 庆 脉冲 编码 。 这 些 脉冲 ，… 舱 称 为 动 
作 电 位 或 冲击 ,产生 于 神经 捷 细 胞 体 或 其 附近 并 以 恒定 的 电 频 和 振幅 穿越 个 霜 神经 元 。 神 经 


元 问 使 用 动作 电位 通信 息 由 轴 罕 的 物理 性 质 决 定 的 。 轴 突 很 
长 很 细 ， 有 很 党 的 电阻 和 非常 大 的 电容 ， 这 二 考分 布 于 轴 突 
中 。 因 此 可 以 用 RC 传输 线路 来 建筑 ， 用 “线路 方程 "这 个 术 
语 来 措 述 轴 突 中 的 信号 传播 。 对 传播 机 制 的 分 析 揭 示 电 压 在 
传输 中 随 距离 指数 衰减 ， 在 到 达 由 一 端 时 会 变 得 很 小 、 动 作 
电位 提供 了 克服 这 个 问题 的 方法 (Anderson,1995)。 

在 人 脑 中 ， 有 大 小 解剖 组 织 之 分 ， 届 能 也 有 高 下 之 别 。 
图 1-3 显示 脑 组 织 交 织 水 平 的 层次 结构 ， 这 已 经 在 广泛 的 关 
于 脑 局 部 区 域 的 分 析 工 作 中 显现 出 来 ( Shepherd and Koch， 
1990; Churchland and Sejnowski, 1992)。 突 甬 去 示 最 基本 的 层 
次 ， 其 活动 依赖 于 分 子 和 离子 。 其 后 的 层次 有 神经 徽 电路 、 
树 突 树 和 最 后 的 神经 元 。 神 经 微 电 路 指 罕 扔 集 成 ， 组 织 成 可 
以 产生 感 兴趣 的 功能 操作 的 连接 模式 。 它 就 像 一 个 由 品 体 管 
集成 的 硅 片 ， 最 小 的 尺寸 用 微米 (km) 庶 量 ， 最 快 的 操作 还 度 
用 毫秒 度量 ， 神 经 微 电 路 被 组 织 成 属于 神经 元 个 体 的 树 突 衬 
的 树 突 子 单元 。 整 个 神经 元 大 约 为 100km 大 小 ,包含 几 个 竺 
窗子 单元 。 局 部 电路 (大 约 Imm 大 小 ) 处 在 其 次 的 复杂 性 水 
平 ， 由 具有 相似 或 不 同性 质 的 神经 元 组 成 ， 这 些 神经 元 集成 
完成 脑 局 部 区 域 的 特征 操作 。 再 次 为 区 域 间 电路 ， 由 通路 、 
柱子 和 局 部 解 前 图 组 成 ,牵涉 脑 中 不 同 部 分 的 多 个 区 域 . 
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图 1-3 脑 组 织 的 分 层 结 构 


局 部 解剖 图 被 组 织 成 啊 应 答 人 感知 器 信息 。 它 们 经 常 被 组 织 成 片 束 状 ， 如 同 在 上 上皇 中 一 


样 。 上 正中 视觉 、 听 觉 和 人 体 触觉 区 以 层 邻接 的 方式 放置 ， 使 得 空间 中 相应 点 的 刺激 处 于 各 








四 














层 的 下 面 或 上 面 。 图 1-4 表示 由 Brodmann Brodal , 1981 ) 做 出 的 大 脑 皮质 的 细胞 结构 图 。 它 清 
楚 表 明 不 同 的 感觉 信息 (和 运动、 触觉、 视觉 、 上 所 觉 等 ) 被 有 序 地 映射 到 大 脑 皮 层 的 相应 位 置 。 
在 复杂 性 的 最 后 一 级 ， 局 部 解 剂 图 和 其 他 的 区 战 间 电 路 成 为 中 央 神 经 系统 传递 特定 行为 的 媒 

















介 。 





认识 到 在 这 蛙 描 绘 的 结构 分 层 组 织 是 人 脑 的 独 有 特征 非常 重要 。 我 们 在 数字 计算 机 中 找 
不 到 这 种 结构 ， 在 人 工 神经 网 络 中 也 无 法 近似 地 重 构 它 们 。 但 是 ， 我 们 仍 在 向 图 1-3 中 撕 述 
的 类 似 的 分 级 计算 的 层 状 结构 缓慢 锥 进 。 用 以 构造 的 神经 网 络 的 人 工 神 经 元 和 人 脑 中 的 神经 
元 相 比 确实 比较 初级 我们 目前 能 设计 的 网 络 和 人 脑 中 初级 的 局 部 电路 和 区 域 癌 电路 相当 。 
但 是 ， 真 正 令 人 满意 的 是 过 去 20 年 间 我 们 在 许多 前 沿 有 了 显著 进步 。 以 神经 生物 类 比 作为 
灵感 的 源泉 ， 加 上 我 们 具有 的 理论 和 技术 工具 的 这 些 财富 ， 下 一 个 上 年 我 们 对 人 工 网 络 的 理 





解 一 定 会 更 加 深 人 。 

















本 书 的 主要 兴趣 限于 从 工程 学 角度 研究 人 工 神经 网 9 。 我 们 从 描述 人 工 神经 元 模型 开始 


研究 神经 网 ， 神 经 元 模型 是 本 -有 后 面 各 章 讨论 神经 网 络 的 基础。 





站 
中 
六 








不 朵 区 城 由 它们 的 层 厚度 及 其 内 部 细胞 类 异 标 作 ，- - 些 最 重要 的 特殊 区 域 如 下 
运 碟 皮质 ; 运动 区 ， 区 域 4: 前 运动 区 ,区域 6; 前 端 眼 妹 区 ， 区 域 8。 人 体 和 触觉 
皮质 : 区 域 3，1，2， 视觉 皮质 ; 区 域 17，18，19。 听 觉 皮质 : 区 局 41，42{ 摘 白 
贞 .Brodal。1981; 经 Oxford University Press 允许 ) 

图 14 大脑 皮 质 风 胞 结构 图 


1.3 神经 元 模型 


神经 元 是 神经 网 络 操作 的 基本 信息 处 理 单位 。 方 框图 1-5 显示 神经 元 的 模型 ， 它 是 (人 
工 ) 神 经 网 络 的 设计 基础 。 我 们 在 这 里 给 出 神经 邱 异 型 的 二 种 基本 元 素 : 

1 , 突 触 或 连接 链 ， 每 一 个 都 由 其 权 值 或 者 强度 作为 特征 。 特 别 是， 在 连 到 神经 元 丰 的 
罕 触 7 工 的 输入 信号 ” 被 乘 以 志 的 突 触 权 重 ww 。 注 意 突 击 权 值 好 的 下 极 的 写法 很 重要 。 第 
一 个 下 怀 指 查询 神经 元 ， 第 二 个 下 标 指 权 值 所 在 的 突 触 的 输入 端 。 和 人 脑 中 的 突击 不 一 样 , 
人 于 神经 元 的 突 触 权 值 有 一 个 范围 ， 可 以 取 正 值 也 可 以 取 负 值 。 

2. 加 法 器 ， 用 于 求 输入 信号 被 神经 元 的 相应 突 触 加 权 的 和 。 这 个 操作 构成 一 个 线性 组 
合 器 。 

3. 激活 函数 ， 用 来 限制 神经 元 输出 振 
幅 。 激 活 函 数 也 称 为 压制 函数 ， 由 于 它 将 
输出 信号 讨 制 (限制 ) 到 允许 范围 之 内 的 一 
定 值 。 通 常 ， 一 个 神经 元 输出 的 正常 幅度 
范围 可 成 单位 闲 区 间 - 0,1] 或 者 另 一 利 
区 间 [ -1,+1]: 
I-5 的 神经 元 模 亚 也 包括 - -个 外 前 
偏 置 ， 沁 为 癌 。 偏 置 的 作用 是 根据 其 为 正 灾 般 权 仁 
或 为 负 ， 相 应 地 增加 或 降低 激活 函数 的 网 
络 输入 。 
















































































图 1-5 神经 元 的 非 线性 模型 
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训 ! 并 





用 数学 术语 ， 我 们 叮 以 用 如 下 一 对 方程 描述 一 个 神经 元 大 : 


必 


和 =) 


(LU 
(1.2) 


其 中 xz 和 ,ao 是 输入 信 续 ，zn ,zzm 基 神经 元 大 的 突 触 权 值 ， 是 输入 信 
号 的 线性 组 会 器 的 输出 , 偏 晋 为 六 ,激活 函数 为 8g{(') ,办 是 神经 元 输出 信和 人生。 候 置 记 的 





作用 是 对 图 1-5 模型 中 的 线性 组 合 器 的 输出 凡 
作 仿 射 变 接 ， 如 下 所 示 ; 

= (1.3) 
特别 地 ， 根 据 偏 置 六 取 正 或 取 负 ， 神 经 元 堪 的 
诱导 忆 部 域 或 激活 电位 办 和 线性 组 合 器 输出 zx 
的 关系 如 图 1-6 所 示 ; 以 后 我 们 将 使 用 “诱导 局 
部 域 " 这 个 术 诸 。 注 意 到 由 于 这 个 仿 射 变换 的 作 
用 ，m 与 点 的 图 形 不 再 经 过 原点 。 

偏 置 六 是 人 工 神经 元 上 的 外 部 参数 。 我 们 
可 以 像 在 方程 (1.2) 中 一 样 考虑 它 。 同 样 ， 我 们 
可 以 结合 方程 (1.1) 和 (1.3) 得 到 如 下 公式 : 









































所 = 袜 o (1.4) 
名 
Ti = po (1.5) 
在 (4.4) 中 ， 我 们 加 上 一 个 新 的 突 触 ， 
其 输入 尾 辣 定 答 和 人生 ” 
Xo = 十 上 《1.6) 
权 值 是 
0 = 本 (1 .7 
我 们 因此 得 到 了 神经 元 上 的 新 模型 输入 











tL7。 在 这 个 图 中 ， 偏 置 的 作用 是 做 两 
件 事 : (1) 铁 加 新 的 固定 输入 + 1 (2) 
添加 新 的 等 于 偏 置 关 的 突 触 权 值 。 虽 
然 形式 上 图 1-5 和 图 1-? 的 模型 不 术 
同 ， 但 在 数学 上 它们 是 等 价 的 。 
































激活 函数 的 类 型 


话 导 局 部 城 售 时 六 > 0 








线性 组 合 器 输出 必 





图 1-6 偏 冉 产生 的 仿 射 变换 
(注意 由 =0 时 办 = 已) 


wx0= 此 ( 偏 置 ) 


四 














突 触 权 值 (包括 偏 置 ) 
图 1-7 神经 元 的 另 一 个 非 线性 模型 


激活 旺 数 ， 记 为 w(")， 通 过 诱导 局 部 域 "定义 神经 元 输出 。 这 里 我 们 给 出 三 种 基本 的 


激活 函数 ; 








1 阅 值 函数 。 这 种 激活 函数 如 图 1-8a 所 卡 ， 可 写 为 : 
如 果 ， 关 0 
0 如 果 "<0 











(oa) = 忆 


(1.8) 





孚 


史 





在 工程 文献 中 ， 这 种 函数 一 般 称 为 Heaviside 函数 。 相 应 地 ， 在 神经 


其 输出 可 表示 为 


其 中 w 是 神经 元 的 诱导 局 部 域 ， 即 


= oo 上 负 (410) 
这 样 一 个 神经 元 在 文献 中 称 为 MeCulloeh- 
Pits 模型 ， 以 纪念 MeCulloch and Pits 
(1943) 的 开 巴 性 工作 。 在 模型 中 ， 如 果 神 
经 汇 的 诱导 局 部 域 非 负 ， 则 输出 为 1， 否 
则 为 0。 这 描述 了 MeCuiloch-Pitts 模 再 的 营 
有 或 者 皆 无 (alL-or-none) 的 特性 。 
2. 分 段 线 性 邓 数 。 分 段 线性 叮 数 出 
图 1-8b 所 示 ， 我 们 有 




















1， 环 区 十 


《1.11) 


工 
2 
9(p) =19， + 序 >o> -去 
工 


卫生 一 


0 2 
其 中 ， 在 运算 的 线性 区 域内 放大 因子 去 为 
1。 这 种 形式 的 激活 丙 数 是 对 非 线性 放大 
器 的 近似 。 下 面 两 种 情况 可 以 看 作 是 此 本 
数 的 特例 ， 
， 在 保持 运算 的 线性 区 域 不 超过 的 
情况 下 ， 就 成 为 线性 组 合 器 -。 
*， 如 果 线 性 区 的 放大 因子 无 穷 大 ， 
那么 此 函数 退化 成 冰 值 通 数 。 
3.sigmoid 函数 。 此 函数 的 图 形 是 S- 
形 的 ,在 构造 人 工 神 经 网 络 中 是 最 常用 的 
激活 函数 。 它 是 严格 的 递增 函数 ， 在 线性 
和 非 线 性 行为 之 间 于 现 出 较 好 的 平衡 六 。 
它 的 一 个 例子 是 logistic 函数 出， 定义 如 下 : 


ep) = 





其 中 上 是 sigmoid 晒 数 的 倾斜 参数 。 
上 ， 在 原点 的 斜 度 等 于 c/4 。 在 极 








民情 况 下 ， 


工人 


经 元 下 使 用 这 种 岗 值 函数 ， 


如 果 w >0 
和 to 如 果 w<0 


(1.9) 
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1 +exp(- 四 ) 


改变 参数 e 就 可 以 改变 倾斜 程度 ， 如 图 1-8c 所 示 。 实 际 


倾斜 参数 








图 1-8 
申 阐 值 函 数 5) 分 段 线性 函数 
倾斜 参数 o 的 sigmoid 函数 


o 具 有 不 回 





(1.12) 





趋 于 无 穷 ，sigmoid 就 变 成 了 简单 的 


值 函数 。 闭 值 函数 仅 取 值 0 或 1， 而 sigmoid 的 值 域 是 0 到 ! 的 连续 区 问 。 还 要 注意 到 
sigmoid 函 效 是 可 微分 的 ， 而 阐 值 函数 不 是 。( 如 第 4 章 所 描述 的 ， 可 微 性 是 神经 网 络 理论 的 
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70 颖 /入 





-个 重要 特征 。) 

在 (1.8)，(1.11) 和 (1.12) 中 定义 的 激 锋 旺 数 的 俏 域 是 0 钊 + 1。 有 时 也 期 望 激活 函数 的 
值 域 是 - 1 到 + 1， 这 种 情况 下 激活 函数 足 关 于 原点 反对 称 的 ; 就 足 说 ， 激 活 了 郑 数 是 诱导 局 
部 域 的 奇 函 数 ， 特 别 地 ， 阔 值 丽 数 (1.8) 的 另 一 种 形式 是 











1， 刻 果 mw> 0 
4o) = 1 0， 如 果 ， = 0 (1.13) 
- 1， 如 果 * < 0 
通常 称 为 signum 函 教 。 为 了 和 sigmoid 眶 数 相 对 应 ,我们 可 以 使 用 双 遇 正切 函数 
， 2) = tanhtz) (1.14) 


如 (14) 所 示 ， 它 允许 sigmoid 型 的 激活 函数 取 负 值 ， 这 在 分 析 时 是 有 用 的 (从 第 4 章 可 见 ) 。 
神经 元 的 统计 模型 


图 1-7 的 神经 元 模型 是 确定 性 的 ， 它 的 答 入 答 出 行为 由 所 有 的 输入 精确 定义 。 但 在 一 些 
神经 网 络 应 用 中 ， 基 于 随机 神经 模型 的 分 析 更 符合 需 竖 。 用 一 些 解析 处 理 方法 ，MeCulloch- 
Pitts 模型 的 激活 表 数 用 概率 分 布 来 实现 ,特别 的 ， 一 个 神经 元 刘 许 有 两 个 可 能 的 状态 值 + 1 
或 -1。 一 个 神经 元 激发 ( 即 它 的 状态 开关 从 “ 关 " 到 *^ 开 "”) 是 随机 决定 的 。 用 zx 表示 神经 元 的 
状态 ，P(z) 表 示 激 发 的 概率 ， 其 中 "是 诱导 局 部 域 。 我 们 可 以 设 定 

人 以 概率 P(z) 
-1， 以 概率 1 - P(D) 
P(z) 的 一 个 标准 选择 是 sigemoid 型 的 图 数 (Litle，1974) : 



































Po) = (1.15》 


an 
其 中 了 是 的 温度 ， 控 制 激 发 中 的 噪声 水 平 即 不 确定 性 。 但 是 ,不管 神经 网 络 是 生物 的 或 人 
工 的， 它 都 不 是 神经 网 络 的 物理 温度 ， 认 识 到 这 一 点 很 重要 进一步， 正如 所 说 明 的 一 样 。 
我 们 仅 仪 将 7 看 必 是 一 个 控制 表示 突 触 噪音 的 效果 的 热 波动 的 参数 。 注 意 当 了 趋 于 0， 
(il.15) 所 描述 的 随机 神经 元 就 变 为 无 噪 卢 ( 即 确定 性 ;形式 ， 也 就 是 MeCulloch-pitts 模型 。 


1.4 看 作 有 向 图 的 神经 网 络 


图 1-5 的 方 框图 或 图 1-7 的 方 框图 提供 了 构成 人 工 神经 汇 模型 各 个 要 素 的 功能 描述 。 我 
们 可 以 在 不 牺牲 模型 功能 纲 节 的 条 件 下 用 信号 流 隐 来 简化 倘 型 外 观 。Mason(1953, 1956 ) 开 发 
了 线性 网 络 的 一 套 信号 流 图 ， 并 带 有 定义 好 的 具 则 。 神 经 元 的 非 线性 限制 了 它们 在 神经 网 络 
中 的 应 用 范围 。 不 过 ， 伟 号 流 图 在 描述 神经 网 络 信 叶 流 时 为 我 们 提供 了 简洁 的 方法 ， 我 们 在 
节 进 行 讨 论 。 
信号 流 图 是 一 个 由 有 向 连接 (分 支 ) 的 互 连 节点 组 成 的 网 络 。- -个 典型 的 节点 了 有 一 个 相 
应 的 节点 信号 冯 。 一 个 典型 的 有 向 连接 从 季 上 ， 到 天 节点 结束 。 它 有 相应 的 传递 函数 
或 传递 系数 以 确定 节点 上 的 信号 六 依赖 于 节点 产 的 信和 叶 % 之 间 的 方式 。 图 形 中 各 部 分 的 信 
号 流动 遵循 3 条 基本 需 则 。 
规则 1 信号 仅仅 沿 着 定义 好 的 箭头 方向 在 连接 上 流动 。 两 种 不 辐 的 连接 叮 以 区 划 开 来 : 
*。 突击 连接 ， 它 的 行为 由 线性 输入 输出 关系 决定 。 特别 如 图 1-9a 所 示 ， 节 点 依 导 六 
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出 节点 信号 ”% 乘 以 突 触 权 值 xy 产生. 

*， 激活 连接 ， 它 的 行为 -- 般 由 非 线 性 输入 输出 关系 决定 。 如 图 1-9% 所 下， 其 中 中 () 
为 非 线性 激活 咀 数 。 

规则 > 节点 信号 等 于 经 由 进 人 连接 的 有 头 季 点 的 信 生 的 代数 和 。 

这 个 规则 如 图 !-9c 所 示 突 触 会 聚 或 扇 入 的 情夫 

规则 3 节点 信号 沿 每 个 外 向 连接 向 外 传递 ， 此 时 传递 的 信号 完全 独立 于 外 疝 连 楼 的 传 


递 晒 数 。 
外 必 
ta 
y>， < 
名 晤 














如 图 1-9d 所 示 突 触 淫 发 或 扁 出 的 情形 。 





厂 = wii 厂 9 = [ 司 
四 站 
图 1-9 用 于 构造 信 生 流 图 的 基本 规则 图 示 
比如 ， 用 这 些 规 则 ， 我 们 可 以 制作 对 应 于 而 = 革 











网 1-7 的 信号 流 图 狗 1-10。 可 以 看 出 ， 图 1-10 
族 比 图 1-7 的 形式 串 简 单 ， 但 是 它 包 含 了 后 者 
描绘 的 所 有 功能 纪 节 。 注 意 ， 在 两 个 图 中 ,和 给 
和 人 xo= +1 和 相关 的 突 船 权 值 zw = 让， 其 中 
到 是 神经 元 的 偏 置 。 

人 确实， 根据 图 1- 10 的 信号 流 图 为 神经 碟 
模型 ， 我 们 可 以 给 出 一 个 神经 网 络 的 下 列 数 学 
定义 : 

神经 网 络 是 一 个 由 具有 互 连 接 实 触 的 节 志 的 
和 激活 连接 构成 的 有 向 图 ， 具 有 和 个 主要 特征 ; 图 1- 名 神经 元 的 信 兮 流 图 

1 每 个 神经 元 可 表示 为 一 组 线性 的 突 甬 连 
接 ， 一 个 应 用 它 的 外 部 偏 置 ， 以 及 可 能 的 非 线 性 激活 连接 。 仿 时 由 和 一 个 固定 为 + 1 的 输入 
连接 的 突 触 连 接 表 示 。 

2., 神经 元 的 突 触 连接 给 它们 相应 的 输入 信号 加 权 . 

3. 输入 信号 的 加 权 和 构成 该 神经 元 的 诱导 局 部 域 。 

4. 激活 连接 压制 神经 元 的 请 导 局 部 域 产生 和 输出。 

一 个 神经 区 的 状态 可 以 定义 为 它 的 输出 信和 号 或 者 诱导 局 部 域 。 

一 个 如 此 定义 的 有 疝 图 是 完全 的 ， 这 是 指 它 不 仅仅 描述 了 神经 元 间 的 信号 流 ， 也 描述 了 
每 个 昼 经 元 内 部 的 信号 流 。 但 是 当 我 们 的 注意 集中 在 神经 元 之 癌 的 信号 流 上 时 ， 可 以 使 用 这 
个 图 的 一 个 简略 形式 ， 它 省 略 神经 元 内 部 的 信号 流 的 细节 。 这 样 的 有 向 图 是 局 部 完全 的 。 它 
的 特征 是 : 

1. 源 节点 向 图 提供 输入 信号 。 
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2. 每 个 神经 元 由 一 个 计算 节点 表示 。 
3. 联结 图 中 源 季 点 和 计算 节点 之 间 的 通信 连接 没有 权 值 ， 它 们 仅仅 提供 网 中 信号 流 的 




















方向 。 
这 样 定义 的 一 个 局 部 完全 的 有 向 图 就 是 所 谓 神经 网 络 as 
的 结构 图 ， 描 述 神经 网 络 的 布局 。 图 1-11 给 只 有 m 个 源 
节点 和 一 个 用 于 偏重 的 固定 为 + 1 的 节点 组 成 的 单一 神经 忆 本 册 
元 的 简单 情况 。 注 意 表示 该 神 经 苑 的 计算 节点 以 阴影 显 四 
示 ， 而 源 节点 用 小 方块 显示 。 在 木 书 中 ， 我 们 都 遵循 这 里 
的 表示 方法 。 在 1.6 节 有 更 精巧 的 布局 结构 图 的 例子 。 丙 
总 的 来 说 ， 我 们 有 一 种 神经 网 络 的 图 形 才 示 方法 ， 症 开 1 神经 元 的 结 风 图 
， 方 框图 ， 提 供 网 络 的 功能 描述 。 
， 信号 流 图 ， 提 供 网 络 中 完全 的 信号 流 描述。 














。 结构 图 ， 描 述 网 络 布局 。 
1.5 反馈 


反馈 存在 于 动态 系统 ， 系 统一 个 元 素 的 输出 部 分 影响 作用 于 该 元 素 输入 ， 因 此 造成 了 一 
个 或 多 个 围绕 系统 的 信号 传 町 的 封闭 路 径 。 实 际 .上 ， 反 馈 存 在 于 所 有 吉 物 的 神经 系统 的 几乎 
每 部 分 中 (Freeman,1975)。 并 且 ， 在 一 类 特殊 的 神经 网 络 一 一 递归 网 络 的 研究 中 扮演 重要 
的 角色 。 图 1- 12 表示 单 环 反馈 系统 的 信号 流 图 ， 输 入 信号 于 
































5(m)\ 肉 部 信号 zi(n) 和 输出 信号 图 Ca] 是 离散 时 间 变量 3 和 
的 函数 。 这 个 系统 由 “ 算 子 "4 发 示 的 前 向 通路 和 * 算 子 " 悍 表 
示 的 反馈 道路 组 成 ， 系 统 是 线性 的 。 特 别 的 ， 前 向 通道 的 输 图 | 单 环 芭 旋 系 统 
出 通过 反馈 通道 影响 自己 的 输出 、 我 们 可 以 很 容易 得 到 图 1- 的 信号 流 图 
12 的 输入 输出 关系 : 
kz) = 4Lx5(n)] 《1.16) 
Xia) = Cn) 十 吾 [LyefCn)] (1.17) 
其 中 方 括号 是 为 了 强调 4 和 用 是 扮演 算 子 的 角色 。 在 (1.16)，(1.17) 中 消去 w, (nj]， 得 到 
(np) = 和 [5(o)] 0.18) 
我 们 把 4/(1 - 45) 称 为 系统 的 闭 际 算 子 ，48 称 为 开 环 算 子 。 一 般 说 来， 并 环 算 子 没有 交换 
人 性， 即 4 了 3 二 到 。 





例如 ， 考 虑 图 1- 13 中 的 单 环 反馈 系统 。4 是 一 个 固定 的 权 值 w; 妃 是 单位 鞍 迟 算 子 
xz ， 其 输出 是 输入 延迟 一 个 时 间 单 位 的 结果 。 我 们 可 以 将 这 个 系统 的 闭环 算 子 表示 为 




















和 0 2 吾 交 
用 (1 - wz ) :二 项 式 展开 ， 可 以 把 系统 的 闭环 算 子 重 写 为 的 
= (LI9) 图 1-13 一 阶 无 限 冲 击 响应 
一 4 


(IIR) 证 波 器 的 信号 流 图 
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1 昨 





因此 ， 将 式 (1.19) 代 人 式 (1.18)， 我 们 有 


Da (20) 





上 中 ， 肯 次 用 方 括号 强调 z -是 算 子 的 事实 ， 特 别 
的 ,由 z 的 定 文 我 们 有 
zatn)] = 六 (1.21) 
其 中 5(n -站 是 答 和 信号 延迟 工 个 时 间 单位 的 样 
本 。 因 此 ， 可 以 用 输入 2 (nm) 现 在 的 和 过 去 的 所 有 
样本 的 加 权 和 来 去 示 输 出 加 (n) ; 
(mn) = 中信 (全 《1.22) 

我 们 现在 清楚 知道 系统 的 动态 行为 是 由 权 值 ” 控 
制 的 。 特 别 是 ， 我 们 可 以 识别 两 种 特殊 情况 : 

1.1u1<1， 此 时 输出 信号 羔 (o) 以 指数 收敛 
也 就 是 说 ， 系 统 稳定 ， 如 图 1- 14a 对 -个 正 冯 值 的 
情况 所 示 - 

2.121 关 1， 此 时 输出 信号 因 (2) 发 散 ， 也 就 是 
说 , 系统 不 稳定 。 图 1-14b 是 lwl = ] 的 情况 ， 发 散 
是 线性 的 ; 图 1- 14c 是 1w1 > !1 的 情况 ， 发 散 是 指 
数 的 。 

稳定 性 是 反馈 系统 研究 中 的 突出 特征 。 

lel<1l 的 情况 对 应 系统 具有 无 限 记忆 ， 这 是 
指 系统 的 输出 依 球 于 无 限 过 到 的 输入 样本。 并 日 ， 
记忆 的 强度 是 随时 间 = 指数 袁 减 的 。 

由 于 用 于 构造 神经 网 络 的 处 理 单元 通常 是 非 线 
性 的 ， 它 所 涉及 的 反馈 应 用 的 动态 行为 分 析 都 很 复 
杂 。 这 一 点 在 本 书后 面部 分 给 出 进一步 分 析 。 


1.6 网 络 结构 
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图 H-14 图 43 中 前 向 权重 2 的 
三 种 不 同 值 的 时 间 响 应 
司 稳定 “切线 性 发 散 “) 指 数 发 敬 





神经 网 络 中 神经 元 的 构造 方式 是 和 训练 网 络 的 学 习 算法 紧密 连接 的 。 因 此 ， 我 们 可 以 
说 ， 用 于 网 络 设计 的 学 习 算法 (规则 ) 是 被 构造 的 ， 我 们 将 在 下 一 章 讨论 学 习 算 法 的 分 类 ， 而 
在 本 书 随后 的 各 章 中 发 展 不 同 的 学 习 算法 。 这 一 他 我 们 专注 于 网 络 的 体系 结构 。 





一 般 说 来 ,我 们 可 以 区 分 三 种 革 本 不 同 的 网 络 结构 。 


1. 单 层 前 镇 网 络 





在 分 层 网 络 中 ， 神 经 元 以 层 的 形式 组 织 。 存 最 简 单 的 分 层 网 络 中 ， 源 节点 构成 输入 层 ， 
直接 投射 到 神经 元 输出 层 (计算 节点 ) 上 去 ， 而 不 是 相反 。 也 就 是 说 ， 这 个 网 络 是 产 格 的 无 园 
的 或 前 饥 的 、 如 图 1-15 所 示 ， 输 出 输入 层 各 有 4 个 节点 。 这 样 一 个 网 络 称 为 单 层 网 。“ 单 
层 " 指 的 是 计算 节点 (神经 元 ) 笨 出 层 。 我 们 不 把 源 节 点 的 输入 层 计 算 在 内 ,因为 在 这 一 层 没 
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有 计算 。 
2. 多 层 前 馈 网 


前 馈 网 络 的 第 二 种 网 络 有 一 层 或 多 居 隐 藏 节 
点 层 ， 相 应 的 计算 节点 称 为 隐藏 单元 或 隐藏 神经 
元 。 隐 藏 神经 元 的 功能 是 以 某 种 有 用 方式 介入 外 
部 输入 和 网 络 输出 之 中 。 加 上 一 个 或 多 个 隐藏 
层 ， 网 络 可 以 引出 上 阶 统计 特性 ， 即使 网 络 为 局 
部 连接 ， 由 于 额外 的 罕 触 连接 利 额外 的 神经 交 开 
和 镍 用 ， 可 以 使 网 络 在 不 堵 么 严格 意义 下 获得 -个 
全 局 关系 (Churehland and sejnowski, 1992 )、 当 输 
和信 层 很 大 的 时 候 ， 隆 藏 层 提 取 高 阶 统计 特性 的 能 
力 就 更 有 价 信 了 。 

和 输入 层 的 源 节 点 据 供 激活 模式 的 元 素 ( 输 入 
向 量 )， 组 成 第 二 层 ( 第 一 隐藏 层 ) 神 经 元 (计算 节 
点 ) 的 输入 信号 。 第 二 层 的 输出 优 号 作为 第 三 层 
输入 ， 这 样 一 直 传递 下 去 。 通 常 ， 每 一 层 的 输入 
部 是 上 一 层 的 输出 ， 最 后 的 输出 层 给 出 相对 于 源 
节点 的 激活 模式 的 网 络 输出 。 结构 网 如 图 1- 16 
所 天。 图 中 只 在 一 个 隐藏 层 以 简化 神经 网 络 的 布 
局 . 这 是 一 个 10-4-2z 网 络 ， 其 中 有 10 个 源 节 
点 ，4 个 隐藏 神经 元 ，2 个 输出 神经 元 。 作 为 另 
外 一 个 例子 ， 具 有 mm 个 源 节点 的 前 镇 网 络 ， 第 
一 个 隐藏 层 有 太 个 神经 元 ， 第 二 个 隐藏 居 有 妨 
个 神经 元 ， 和 输出 层 有 9 个 神经 元， 可 以 称 为 
下 =- 员 一 有 -9 网 络 - 

网 1-16 的 网 络 也 可 以 称 之 为 完全 连接 网 络 ， 
这 是 指 相 邻 层 的 任意 一 对 节点 都 有 连接 。 如 果 不 
必 这 样 ， 我 们 称 之 为 部 分 连接 网 络 、 


3. 递归 网 络 
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源 节 点 输入 层 神经 元 输出 层 


图 1-15 单 层 前 馈 或 无 图 神经 元 网 络 


0 
CON 
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源 节 点 
输入 层 


隐藏 神 
经 元 层 


输出 神 
经 元 层 


图 1-16 具有 一 个 隐 层 和 输出 层 
的 全 连接 前 馈 或 雹 圈 网 络 


递归 网 络 和 前 饶 网 络 的 区 别 在 于 它 至 少 有 一 个 反馈 环 。 例 如 图 1-17 所 伙 ,递归 网 络 可 





以 是 这 样 ， 单 层 











络 的 每 一 个 昼 经 元 的 输出 都 反馈 到 所 有 
描绘 的 结 梅 没有 自 反 馈 环 ， 自 反馈 环 表示 神经 元 的 输出 反馈 到 它 自 己 的 输入 上 去 








他 神经 元 的 输入 中 去 。 这 个 图 中 
E17 




















也 没有 隐藏 层 - 图 1- 18 所 示 是 带 有 隐藏 神经 元 的 一 类 递归 网 络 ， 反 馈 连 接 的 起 点 包括 隐藏 








层 神经 元 和 输出 神经 郊 。 





反馈 环 的 存在 ， 不 管 在 图 1- 17 或 图 1- 18 的 递归 结构 中 ， 对 网 络 的 学 习 能 力 和 它 的 性 能 
有 深刻 的 影响 。 并 且 ， 由 于 反馈 环 涉及 使 用 单元 延迟 元 素 ( 记 为 *“) 构 成 的 特殊 分 支 ， 假 如 





神经 网 络 包含 非 线性 单元 ， 这 导致 非 线性 的 动态 行为 。 
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图 1-17 雹 自 反馈 环 和 隐藏 神经 元 的 递归 网 络 图 1- 18 有 隐藏 神经 元 的 递归 网 络 


1.7 知识 表示 
在 1.1 节 中 用 到 了 "知识 "这 个 术语 ， 我 们 用 它 来 定义 神经 网 络 的 时 候 没 有 对 它 的 澜 义 作 
明确 的 表述 。 我 们 注意 到 这 一 点 ， 下 面 给 出 一 般 性 的 定义 (Fischler and Firschein ,1987 ): 
知识 就 是 人 或 机 器 储存 起 来 以 备 使 用 的 信息 或 模型 ， 用 来 对 外 部 世界 作出 解释 、 预 测 和 
适当 的 反应 。 


知识 表示 的 主要 特征 有 两 个 方面 : 《1) 什 么 信息 是 明确 才 述 的 ; (2) 物 理 上 信息 是 如 何 被 
编码 和 使 用 的 。 按 知识 表示 的 本 性 ， 它 是 目标 导 癌 的。 在 “智能 "机 器 的 现实 应 用 中 ， 可 以 说 
好 的 方案 取决 于 知识 的 好 的 表 式 (Woods,1986)。 人 氏 表 一 类 特殊 徊 能 机 器 的 神经 网 络 也 是 如 
此 。 但 许 ， 典 型 地 从 输 和 人 到 内 部 网 络 参数 的 可 能 表现 形式 是 高 度 多 样 性 的 ， 这 导 敏 基于 神经 
网 络 的 满意 解 的 求解 成 为 一 个 挑战 性 的 设计 。 

神经 网 络 的 一 个 主要 任务 是 学 习 它 依存 的 外 部 世界 (环境 ) 的 一 个 模型 ， 并 且 保 持 该 模型 
和 真实 世界 足够 相 容 ， 这 样 得 到 感 兴趣 的 应 用 的 特定 目标 。 有 关 世 界 的 知识 由 两 类 信息 组 
成 。 

1. 已 知 世界 的 状态 ， 由 什么 事实 和 已 知道 什么 事实 所 表示 ; 这 种 形式 的 知识 被 称 为 先 
验 信息 。 

2. 对 世界 的 观察 (测量 ) ， 由 设计 的 探测 神经 网 络 所 在 的 运行 坏 境 的 传感器 获得 。 一 般 
说 来 ， 这 些 观察 是 带 有 了 噪声 的 ， 由 于 传感器 的 噪声 和 系统 的 不 完善 而 产生 误差 。 不 管 怎样 ， 
这 翌 得 到 的 观察 是 用 来 训练 神经 网 络 例子 的 信息 池 。 

例子 可 以 是 有 标记 的 ， 也 可 以 是 无 标记 的 。 例 子 有 标记 时 ， 每 个 例子 的 输入 信号 有 相应 
的 与 之 配对 的 期 望 响应 。 另 一 方面 ， 无 标 沁 的 例子 包括 输入 信号 自身 的 不 同 实现 。 不 管 怎 
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样 ， 一 组 例子 ， 无 论 有 标号 或 无 剑 号 ， 代 表 了 神经 网 络 通过 训练 可 以 学 习 的 环境 知识 。 
-组 出 输入 售 导 和 相应 的 期 望 响应 组 成 的 输入 输出 对 碎 为 训练 数据 集 或 训练 祥 本 。 为 了 
说 明 怎 样 使 用 这 样 的 数据 集 ， 例 如 考虑 手写 数字 识别 问题 。 这 个 问题 中 ， 和 输入 信号 是 - 幅 黑 
白 图 像 ， 每 幅 图 像 代 表 从 背 其 中 明显 分 离 的 十 个 数字 之 一 。 期 望 的 响应 就 是 “确定 "网 络 的 输 
入 信和 号 代表 哪个 数字 。 遂 常 训练 样本 就 是 手写 体 数 字 的 大 量变 形 ， 这 代表 了 真实 志 界 的 情 
形 。 有 了 这 些 样本 ， 可 以 如 下 设计 网 络 : 
” 第 一 ,选择 一 个 合适 的 结构 ， 输 入 层 的 源 节点 数 和 输 和 图像 的 像素 数 一 样 .而 输出 
层 包 含 10 个 神经 元 (每 个 数字 对 应 一 个 神经 元 )。 利 用 合适 的 算法 ， 以 样本 的 一 个子 
集训 练 网 络 。 这 个 设计 阶段 叫 学 习 。 
” 第 二 ， 用 年生 样本 丛 验 已 训练 网 络 的 识别 性 能 。 特 别 ， 吧 现 给 网 络 一 幅 输 入 网 像 ， 
此 时 并 不 告诉 它 这 幅 图 像 属于 娜 个 数字 。 网 络 的 忻 能 就 用 网 络 报告 的 数字 类 别 和 输 
人 图 像 的 实际 的 类 别 的 差异 来 衡量 。 网 络 运 行 的 这 第 二 个 阶段 岂 泛 化 ， 这 是 借用 心 
理学 的 术语 。 
这 时 神经 网 络 设计 与 它 的 传统 信息 处 理 对 应 部 分 (模式 分 类 器 ) 有 着 根本 的 差别 。 在 后 一 
种 情况 ， 首 先 我 们 通常 设计 一 个 环境 观察 的 数学 异型 ， 利 用 真实 数据 验证 这 个 模型 ， 青 以 此 
模型 为 基础 建立 设计 。 相 反 ， 神 经 网 络 的 设计 直接 基于 实际 数据 ， 让 数据 自己 说 话 。 因 此 神 
经 网 络 提供 了 内 抵 于 环境 的 隐 含 模型 ， 但 是 也 实现 了 感 兴趣 的 信息 处 理 功能 。 
用 于 训练 神经 网 络 的 例子 可 以 由 正 鲍 和 反例 组 成 。 比 如 ， 在 被 动 声 纳 探测 问题 上 ， 正 例 
指 包括 感 兴趣 的 目标 (如 潜艇 ) 的 输入 训练 数据 。 在 被 动 声 纳 环境 ， 我 们 知道 测试 数据 中 海洋 
生物 的 可 能 出 现 经 常 造成 虚 警 。 为 了 缓解 这 个 问题 ， 把 反例 (如 海洋 生物 的 同 声 ) 包 括 在 训练 
集中 以 教会 网 络 不 要 混 消 海洋 生物 和 目标 。 
在 神经 网 络 的 独特 结构 中 ， 周 围 环 境 的 知识 表示 由 网 络 的 自由 参数 ( 即 突 触 权 侦 和 偏 置 ) 
的 取 值 定义 这 种 知识 表示 的 形式 怕 成 神经 网 络 的 设计 本 身 ， 困 此 ， 也 是 网 络 性 能 的 关键 。 
人 工 网 络 中 的 知识 表示 是 很 复杂 的 。 但 是 这 里 有 它 通 用 的 4 条 规则 (Anderson,1988) 。 
规则 1 相似 的 类 别 中 相似 输入 通常 应 产生 成 网 络 中 相似 的 表示 ， 因此， 可 以 归 和 人 同 -- 
类 中 。 
度量 输入 相似 性 有 很 多 方法 。 常 用 的 相似 度量 是 利用 欧 几 里 德 距离 。 作 为 特例 ， 令 大 
是 一 个 亚 x1] 的 实 元 素 列 向 量 ， 


















































和 = 
上 标 了 表示 矩阵 转 置 。 向 量 x 就 是 mm 维 空间 ( 称 为 欧 几 里 德 空间 ) 的 一 个 点 ， 记 为 向" 。 两 
个 mx1 向量 xi,& 之 间 的 欧 几 里 德 距离 就 是 


dx 5) = xs -和 = [ 写 cs 《1.23》 


其 中 心 , 录 分 别 是 输入 向 量 x ,5 的 第 个 分 量 。 相 应 地 ， 由 向 量 x& ,z5 表示 的 两 个 输入 的 相 
似 性 就 定义 为 欧 几 里 德 距离 ixi,x ) 的 倒数 。 输 人 向 量 x 和 xi 相距 越 近 ， 网 几 里 德 距离 了 
(zx ,5 ) 就 越 小 ， 相 似 性 就 越 大 。 如 果 两 个 向 量 是 相似 的 ， 规 则 1 说 明 它们 归 入 同一 类 。 

另 一 个 相似 性 度量 是 基于 志 积 或 内 积 ， 它 借用 算 阵 代数 。 给 定 一 对 相同 维 数 的 向 量 x ， 
对 ， 它 们 的 内 积 就 是 五 ， 可 展开 如 下 ， 











中 
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(C) = = 呈 s (1.24) 
内 积 (x, , ) 除 以 范 数 积 ix | 1x | ， 就 是 两 个 向 量 x ， xi 的 奕 角 的 余弦 - 
这 里 定义 的 两 种 相似 忻 度量 有 密切 的 联系 ， 如 图 1-19 所 
示 。 欧 儿 里 德 昧 离 | x -世上 和 辐 量 和 到 向 量 % 的 “投影 " 相 
关 。 图 1-19 清楚 地 表明 欧 几 里 德 距离 | x, -天 | 越 小 ， 向 量 
x& 和 天 越 相似， 内 积 交 xx 越 大。 
为 了 把 这 种 关系 置 于 形式 化 基础 之 上 ， 我 们 首先 将 向 量 
x, 和 x 归 一 化 ， 即 




















xl =1 允 =1 图 !-19 图 解 内 积 和 作 

式 51.23) 我 们 就 可 以 写成 为 模式 相似 性 度 其 的 网 

由 (OO) = (0 到 (2 -) = 2-2xx (1.25) 见 里 德 距 离 之 间 的 关系 
等 式 (1.25) 表 明 最 小 化 的 欧 几 里 德 距离 &(x, ,xi ) 就 对 应 最 大 化 的 内 积 (x,, ) 和 最 大 化 关 和 
xi 的 相似 性 。 
这 里 的 欧 几 里 德 距离 和 内 积 的 定义 都 是 用 确定 性 的 术语 定义 的 。 如 果 向 苹 和 殉 是 从 
不 同 数 据 总 体 ( 池 ) 中 得 来 的 ， 又 该 怎样 定义 相似 性 呢 ? 作为 特例 ， 人 很 设 遇 个 总 体 的 差异 仅 在 

它们 的 均 估 向 量 。 令 本 和 各 分 别 志 示 向 量 克 和 的 均值 。 也 就 是 说 ， 

Ri = 五 [x， 《1.26) 
其 中 2 是 统计 期 望 算 了 。 均 值 向 量 二 同样 定义 。 为 了 度量 这 曙 个 总 体 的 臣 离 ， 我 们 可 以 用 
Mahalanobis 亚 离 来 衡量 ， 记 为 十 。 从 交 到 x% 的 这 种 距离 的 平方 值 定义 为 (Duda and Hart,1973 ) : 











利 



































= (一 有 《1.27》 
其 中 五 ' 是 协 方差 矩阵 思 的 六 答 阵 。 人 很 设 师 个 总 钵 的 协 方差 矩阵 是 一 样 的 ， 表 示 如 下 : 
瑟 = PTOc -有 )0O0 -中 ) 门 = 瑟 [ 人 (5 一色) 一声) 门 《1.28) 


当 台 = 台 ， 下 = 十 = 卢 和 五 = 工时 (I 为 单位 矩阵 ) ，Mahalanobis 距离 变 为 样本 商量 x 和 均值 向 
量 疡 间 的 欧 几 里 德 路 离 。 

规则 2 “网络 对 可 分 离 为 不 同 种 类 的 输入 向 量 给 出 差别 很 大 的 表示 。 

这 条 规则 与 规则 1 正 相反 。 

规则 3 ”如 果 某 个 特征 很 重要 ， 那 么 网 络 表示 这 个 向 量 将 涉及 大 量 神经 元 。 

比如 ， 考 虑 雷达 探测 涉及 在 散乱 状态 ( 即 雷达 从 不 期 望 的 目标 如 建筑 物 、 岩 木 和 云层 的 
反射 ) 下 的 目标 (如 航空 器 ) 的 应 用 。 这 样 的 雷达 系统 的 探测 性 能 由 下 面 两 种 概率 形式 来 衡 
量 ， 























。 探测 概率 ， 就 是 目标 存在 时 系统 判断 目标 出 现 的 概率 。 

。 虚 警 概率 ， 就 是 目标 不 存在 时 系统 判断 日 标 出 现 的 轨 率 。 

按照 Neyman-Pearson 准则 ， 在 虚 警 概率 限制 在 一 定 范围 的 情况 下 ， 探 测 概 率 达到 最 大 值 
《Yan Trees,1968)。 在 这 种 应 用 中 ， 收 到 信号 中 目标 的 实际 出 现代 表 输 入 信号 中 的 重要 特征 。 
实际 上 ， 规 则 3 意味 普 在 真实 目标 存在 的 时 候 应 读 有 大 量 神经 元 参与 判决 该 目标 出 现 。 按 同 
样 道 理 ， 仅 当 散 乱 状 态 实际 存在 的 时 候 才 应 该 有 大 量 神经 元 参与 判决 该 散乱 状态 的 出 现 。 在 
两 种 情形 下 ， 大 量 的 神经 元 保证 了 判决 的 高 度 准 确 人 性 和 对 错误 神经 元 的 容错 狂 。 
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规则 4 先 答 估 息 和 不 变性 应 该 附加 任 网 络 设计 中 ， 这 翌 不 必 学 习 它 们 就 能 简化 网 络 设 
计 。 

规则 4 特别 重要 ， 因 为 真正 坚持 这 一 规则 就 会 导致 网 络 具有 特殊 的 (有 限制 的 ) 结 构 。 这 
一 点 是 我 们 正 需要 的 ， 原 因 如 下 (Russo,1991) : 

1, 已 知 生 物 视觉 和 听 党 网络 是 非常 特别 的 。 

2, 柑 对 于 完全 连接 网 络 ， 特 殊 网 络 用 于 调节 的 自由 参数 是 较 少 的 。 因 此 ， 特 殊 网 络 所 
需 的 训练 数据 更 少 ， 学 习 更 快 而 且 常 常 排 广 性 更 强 。 

3, 通过 特殊 网 络 的 信息 传输 速率 ( 即 网 络 的 通过 数据 ) 是 增加 的 。 

4， 和 全 连接 网 络 相 比 特殊 网 络 的 建设 成 本 比较 低 ， 因 为 规模 较 小 。 


怎样 在 神经 网 络 设计 中 加 入 先 验 信息 


当然 ， 怎 样 在 神经 网 络 设计 中 建立 先 验 信息 ， 以 此 建立 一 种 特殊 的 网 络 结构 ， 这 是 必须 
考虑 的 重要 的 问题 。 不 幸 的 是 ， 现 在 还 没有 一 种 有 效 的 规则 来 使 用 先 验 信息 提高 网 络 性 能 ; 
我 们 只 有 某 些 特别 的 过 程 ， 已 知 可 以 产生 一 些 有 用 的 结果 。 特 别 是 ， 我 们 使 用 下 面 两 种 技术 
的 结合 (LeCun et al, ,1990a): 

1. 通过 使 用 称 为 楼 收 域 5 的 局 部 连接 ， 限 制 网 络 结构 。 

2. 通过 使 用 权 值 共享 ， 限 制 突 触 权 值 的 选择 。 

这 两 种 方法 ， 特 别 是 后 一 种 ， 圳 很 好 的 附带 效益 ， 它 使 网 络 自由 参数 的 数量 显著 下 降 。 

作为 特例 ， 考 虑 一 个 如 图 1-20 所 示 的 
部 分 连接 前 人 饥 网 络 。 这 个 网 络 有 带 限制 的 
结构 。 顶 部 6 个 源 节 点 组 成 隐藏 神经 元 1 
的 接收 域 ， 网 络 其 余 隐 藏 神经 元 类 推 。 为 
满足 权 值 共享 限制 ， 我 们 在 隐藏 层 中 每 个 
神经 元 使 用 同一 组 突 触 权 值 。 这 样 ， 对 图 
1-20 所 示 的 例子 ， 每 个 隐藏 神经 元 有 6 个 
局 部 连接 ， 共 有 4 个 隐藏 神经 元 ， 我 们 可 以 
表示 每 个 隐藏 神经 元 的 诱导 局 部 域 如 下 


电 = Dionmisi， 了 = 1,2,3,4 (1.29) 
其 中 115. 梅 成 所 有 四 个 隐 若 神经 元 共享 源 节 点 输入 层 。 。 隐 神 经 元 层 ”。 。 输出 神经 元 层 


的 同一 权 信 集 ，xx 为 从 源 节 点 上 = IE+7 -1 图 1-20 联合 利用 接受 域 和 权 值 共享 的 图 例 。 所 
挑选 的 入 导 。 方 程 (1.29) 为 卷 积 和 的 形式 。 有 四 个 隐 神 经 元 共享 它 们 突 触 连接 的 相同 权 值 集 
由 于 这 个 原因 ， 使 用 这 里 描述 的 局 部 连接 和 权 值 共享 的 前 锁 网 络 称 为 卷 积 网 络 。 

在 神经 网 络 的 设计 中 建立 先 验 信息 的 问题 是 属于 规则 4 的 一 部 分 ， 该 规则 的 番 余 部 分 涉 
及 不 变性 问题 。 


如 何在 网 络 设计 中 建立 不 变性 


考虑 下 列 物理 现象 ， 
，。 当 感 兴趣 的 目标 旋转 时 ， 观 察 者 感知 到 的 目标 的 图 像 通 常会 有 相应 的 变化 。 
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在 一 个 提供 它 向 赎 环 境 的 帽 度 和 相位 信息 的 相 于 箱 达 





， 由 于 月 标 相 对 于 雷达 射线 





运动 造成 的 多 普 勒 效应 活动 门 标的 回声 在 频率 上 会 产 牛 偏 移 。 


大 说 话 的 话 调 会 有 高 低 快 怪 的 变化 。 
为 了 分 别 建立 一 个 对 象 识别 系统 、 一 个 曙 达 日 标识 别 系统 





各 一 个 语音 识别 系统 处 理 这些 





现象 ， 系 统 必 须 可 以 应 付 一 定 范围 内 的 观察 信号 的 变换 ， 相 应 地 ， 一 个 模式 识别 问题 的 主 归 
任务 就 是 设计 对 这 种 变换 不 变 的 分 类 内 。 也 就 是 说 ， 分 类 器 输出 结果 的 类 别 佑 计 不 受 分 类 器 
输入 观察 信号 变换 的 影响 。 

至 少林 用 三 种 技术 使 得 分 类 器 型 的 神经 网 络 对 变换 不 变 (Barnard and Casasent, 19931) : 


1. 结构 不 变性 。 适 当 








像 的 分 类 问 








中 强制 


加 上 旋转 不 变性 如 下 


题 ， 要 求 神经 网 络 在 平面 内 
: 令 好 大 示 神 经 元 和 输 和 人 图 


也 组 织 它 的 设计 ， 在 神经 网 络 中 加 进 不 变性 。 特 别 是 ， 在 建立 网 
经 元 突 触 连接 时 要 求 同 一 输 人 变换 后 必须 得 到 同样 的 输出 。 例 如 考虑 利用 神经 网 络 对 
不 受 关于 中 心 的 旋转 的 影响 。 我 们 可 以 在 网 络 


像 的 像素 ; 的 连接 。 如 果 对 所 有 两 


个 到 图 像 中 心 蝗 离 相等 的 像素 计 和 天 强制 岂 . = zx ， 那 么 神经 网 络 对 平面 内 的 旋转 不 变 。 但 


是 为 了 保持 旋转 不 变 隆 ， 对 
上 了 结构 不 变性 的 一 个 缺点 ; 


前 权 值 wo 这 指 昌 


络 中 的 连接 数 日 也 会 变 得 : 
2. 训练 不 变性 。 和 神经 














的 变换 不 变 竹 。 用 


从 原点 出 发 的 相同 半径 距离 上 





图 


的 输 人 








像 的 每 个 像素 必须 复制 突 





党 大 。 
络 有 天 生 的 模式 分 类 的 能 力 。 
同一 目标 的 经 不 同 变换 后 得 到 














些 来 自 





络 ， 这 些 样本 代表 着 目标 的 不 同 变 
不 同方 面 ， 我 们 就 可 以 期 望 训练 后 的 网 络 能 对 已 出 现 目标 的 不 


神经 网 络 即 使 在 处 理 中 等 大 小 的 








像 时 ， 网 








利用 这 种 能 力 可 以 站 
的 样本 ( 即 目 


搂 得 到 下 
标的 不 同方 面 ) 训 练 


面 














换 。 假 设 样 本 足够 大 旦 训练 后 的 网 络 已 经 学 会 分 辩 目 标的 





同 变换 作出 正确 的 推广 。 但 是 


共 工 程 的 角度 看 ， 训 练 不 变性 有 两 方面 不 足 ; 第 一 ， 如 果 一 个 神经 网 络 训练 后 对 已 知 变换 的 





目标 有 不 变性 ， 不 





一 定 能 保证 它 对 其 





求 太 难 对 付 了 ,特别 在 高 维特 征 空间 尤其 如 此 。 


3. 特征 空间 不 变性 。 第 三 利 建立 神经 网 络 不 变性 分 类 器 的 技术 如 
于 这 样 的 前 提 条 件 ， 即 能 提取 表示 输 人 数据 本 质 信息 内 容 特性 的 特征 ， 并 且 它 对 输 人 的 变换 
用 这 样 的 特征 ， 那 么 分 类 神经 网 就 可 以 从 刻画 具有 复杂 的 基 





保持 不 变 。 如 果 使 
变换 范围 的 负担 中 
等 不 可 避免 因素 的 
数 可 以 降低 公理 想 





变性 都 得 到 保证 (Bamard and Casasent 
总 的 说 来 ， 利 用 所 描述 的 不 变 
空间 ， 可 以 提供 最 适合 神经 网 络 分 类 器 的 


技术 。 


为 了 描述 不 变性 特征 空间 ， 考 虑 一 个 





他 类 型 的 目标 的 变换 也 有 不 变性 。 第 二 ， 网 络 的 计算 要 








医 











1-21 所 示 。 它 依赖 


定 边 界 的 日 标 


解脱 出 来 。 确 实 ， 问 一 目标 的 不 同 的 事例 的 差异 仅仅 在 于 噪音 和 偶发 事件 





影响 。 
的 水 平 。 第 二 ， 网 





络 设计 的 要 求 放宽 了 





特征 空间 不 变性 提供 了 一 个 明显 的 好 处 ， 第 一 , 适 














于 网 络 的 特征 
日 标的 已 知 变 换 的 不 





。 第 王 ， 所 有 


,1991 )。 钥 是， 这 个 方法 要 求 所 求 问题 的 先 验 知识 。 














输入 一 ?| 


例子 , 用 于 空中 监控 相干 雷达 系统 ， 其 日 标 


可 能 是 飞机 ， 天 气 ， 


图 1- 


不 变 特征 
提取 器 


分 类 器 型 


神经 网 络 站 类 估计 


| 














21 不 变性 特征 空间 型 系统 方 栓 图 





乌 寿 和 地面 站 标 。 从 这 些 口 标的 雷达 


回声 有 特有 的 谱 特 征 。 并 有 旦 ， 实 验 


研究 表明 这 样 的 雷达 信号 容易 用 阶 为 中 等 大 小 的 自 回归 (antoregressive,AR) 过 程 模型 来 建 模 


(Haykin and Deng,1991)。AR 模型 是 如 下 对 复数 数据 定义 的 











归 模型 的 特殊 形式 : 





国 ] 
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xz(a) = 2Jerx(a -站 +e(n) (1.30) 
四 


其 中 fa 局 为 AR 系数 ， 形 为 模型 阶 ，x(m) 为 输入 ，efm) 为 外 噪声 的 误差 。 基 本 上 ， 方 程 
《1.30) 的 AR 模型 出 带 状 延 迟 线 滤 波 器 表示 ， 如 图 1-22a 中 WH = 2 的 情形 。 同 翌 ， 它 可 由 图 
1-22b 所 示 的 网 格 访 波 器 表示 ， 它 的 系数 称 为 反射 系数 。 疼 1-22a 中 模型 的 AR 系数 和 图 1- 
22b 中 模型 的 反射 系数 一 一 对 应 。 所 描绘 的 异型 都 假设 输入 *{m) 是 复数 .因为 在 由 干 雷 达 
的 情形 ，AR 系数 和 反射 系数 都 为 复数 。 在 方程 (1.30) 和 图 1-22 中 的 号 表示 复 共 胰 。 现 在 
可 以 说 相干 直 达 数据 可 以 用 -组 自 回归 系数 撒 述 ， 或 者 由 一 组 相应 的 反射 系数 撒 述 。 后 一 组 
系数 有 计算 上 的 优点 ， 已 存在 有 效 的 算法 从 输入 数据 直接 计算 。 但 是 ， 特 征 提取 问题 是 很 复 
杂 的 ， 因 为 活动 物体 产生 不 同 的 多 普 乾 频率 ， 这 取决 测 得 的 物体 相对 于 雷达 的 径 疝 速度 ， 以 
及 作为 特征 判别 式 的 反射 系数 的 谱 分 布 会 产生 模糊 。 为 了 克服 这 种 困难 ， 我 们 必须 建立 反射 
系数 计算 中 的 多 普 勤 不 变性 。 第 一 个 反射 系数 的 相位 角 结 果 与 雷达 信号 的 多 普 得 频率 相等 、 
相应 地 , 归 一 化 多 普 勒 频率 可 以 去 掉 平均 多 普 间 平移 的 均值 。 这 些 可 以 通过 从 输入 数据 计算 


















































红 ] 得 到 的 常规 反射 系数 |kof 定 义 新 的 反射 系数 je ;来 实现 : 
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图 1-22 一 阶 自 回归 模型 
引 带 状 延迟 线 模型 “所 网 格 涉 波 器 模型 (是 号 吉 示 复 闪 示 》 
其 中 9 为 第 一 反射 系数 的 相位 和 角 。(1.31) 摘 述 的 运算 称 为 外 差 法 。 一 组 多 普 惑 不 变 需 达 特 征 
可 由 归 一 化 的 发 射 系数 ez，…eyw 表示 ，K， 为 惟一 的 实 系数 。 我 们 说 过 ， 空 中 监控 的 雷 
达 目 标 主要 可 归 类 为 飞机 、 天 气 、 乌 群 和 地 面 ， 前 三 类 目标 都 是 动 的 ， 后 一 种 不 是 。 地 面 回 
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声 汇 频 后 的 谱 参 数 各 飞机 的 类 似 。 因 为 其 小 的 多 普 勒 平移 ， 地 面 回声 可 以 和 发 机 区 草 。 相 应 
的 .雷达 分 类 器 包括 一 个 如 图 1-23 所 示 的 后 处 理 器 ， 操 作 分 类 结果 ( 编码 标 叶 ) 以 识别 地 面 
类 (Haykin and Deng 1991)。 这 样 ， 在 图 1-23 中 的 预 处 理 器 处 理 从 分 类 器 输入 中 抽取 的 多 普 勤 









































平移 不 变 特征 ， 邮 后 处 理 器 利用 存储 的 多 普 勒 特征 区 分 返回 的 地 面 和 飞机 信和 号。 
上 飞机 
， 特征 抽取 器 神经 网 络 “| 标号 类 | 上 > 
雷达 数据 -| ( 预 处 理 器 ) 分 类 器 中 后 处 理 器 | > 网 
六 > 节 面 








条 普 惑 信息 | 





图 1-23 雷达 信号 的 多 普 勒 平移 不 变 分 类 器 


神经 网 络 知识 表示 的 一 个 更 有 趣 的 例子 是 蝙 是 的 生物 回声 定位 声 纳 系统 。 为 了 声音 映 
射 ， 大 多 数 蝙 蝠 使 用 频率 调制 (FV 或 “chimp”) 信 号 ， 在 FM 信号 中 信号 的 嚼 时 频率 随时 间 变 
化 。 特 别 的 ， 蝙 蝠 用 口 发 出 短 时 FM 声 纳 信号 ， 用 听 党 系统 来 作 接 收回 。 对 于 感 兴趣 的 目标 
同 声 在 听 党 系统 中 选用 不 同 声音 参数 组 合 的 神经 元 活动 来 表达 。 蝙 蝠 的 听 党 表达 有 一 个 主要 
的 神经 维 数 (Simmons,199I ;Simmons and Saillant,I992 ); 
，。 回声 频 举 ,在 耳 昭 频率 图 中 被 编码 ;通过 整个 听觉 系统 的 通路 保 在 ， 按 照 调制 成 不 
同 频率 的 一 定神 经 元 的 有 序 排 列 。 
， 回声 幅度 ， 由 其 他 具有 不 同 动态 范围 的 褐 经 元 编码 ; 它 被 表示 成 幅度 调制 和 每 个 刺 
激 的 放电 次 数 。 
” 回声 延迟 ， 通 过 神经 计算 编码 (基于 交叉 相关 ) 并 产生 延迟 选择 响应 。 它 被 表示 成 目 
标 范围 调制 。 
用 于 图 像 形成 的 目标 回声 的 两 个 主要 特点 是 日 杭 的 “形状 "的 谱 和 月 标 范 围 的 延迟 。 利 用 
目标 不 同 反射 面 的 回声 (反射 ) 的 列 达 时 间 ， 蝙 蝠 感知 "形状 "。 为 此 日 的 ， 同 声 谱 的 频率 信息 
被 转换 为 目标 的 时 间 结 构 的 估计 。 由 Simmons 及 其 合作 者 对 棕色 大 蝙蝠 LEptesicus fuscus) 进 行 
的 试验 ， 严 格 验证 了 这 个 转换 过 程 ， 它 的 组 成 包括 并 行 时 域 转换 和 频率 对 时 域 转换 构成 ， 它 
的 收 和 敛 输出 产生 目标 的 感知 图 像 的 范围 轴 上 的 共同 延迟 。 虽 然 最 初 执行 的 回声 延迟 的 听觉 时 
间 表 示 和 回声 谱 的 频率 表示 的 方法 不 同 ， 但 看 起 来 蝙蝠 的 感知 协调 性 归 因 于 变换 自身 的 一 些 
性质 。 并 且 特 征 不 变性 被 戏 人 声 纳 图 像 形 成 过 程 ， 所 以 它 本 质 上 独立 于 日 标 相对 运动 和 蝙蝠 
自己 的 运动 。 
回 到 本 节 主 题 上 米 ， 即 神经 网 络 中 的 知识 表示 ， 这 个 论题 和 1.6 节 描述 的 网 络 结构 有 真 
接 关 系 。 不 幸 的 是 ， 还 没有 成 功 的 理论 可 以 根据 环境 优化 神经 阅 络 结构 ， 或 者 评价 修改 网 络 
结构 对 阅 络 内 部 知识 表示 的 影响 。 实 际 上 ， 对 这 些 问题 的 满意 结果 经 党 要 用 穷尽 试验 研究 来 
得 到 ， 这 人 翌 神 经 网络 的 设计 者 也 是 结构 学 习 环 中 的 关键 部 分 。 
不 管 如 何 完成 设计 ， 对 于 感 兴趣 的 问题 领域 的 知识 ， 总 是 以 相当 简单 和 直接 的 方式 通过 
对 网 络 的 训练 来 得 到 的 。 这 样 获得 的 知识 ， 网 络 通过 突 触 连接 的 公 值 以 简洁 的 分 布 式 形式 表 
示 。 这 种 形式 的 知识 表示 使 得 神经 网 络 可 以 改进 和 推广 ， 不 幸 的 是 神经 阅 络 受到 它 固有 的 缺 
乏 解释 能 力 的 朵 扰 , 即 不 能 以 综合 的 方式 解释 作出 决定 或 报告 输出 结果 的 计算 过 程 。 这 是 一 
个 严重 的 局 限 ， 特 别 是 对 于 那些 主要 关注 安全 的 任务 ， 比 如 空中 交通 管制 和 医疗 诊断 。 在 这 
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类 应 用 由， 提供 某 种 形式 的 解释 能 力 不 仅 足 非 常 期 望 的 ， 而 且 是 绝对 需要 的 。 提 供 这 种 功能 
的 一 个 方法 是 把 神经 网 络 和 人 工 智 能 集成 - ' 个 混合 系统 ， 这 在 下 节 讨 论 。 


1.8 ”人工 智能 和 神经 网 络 


人 工 智能 (AD 的 目的 是 给 完成 人 类 当前 更 胜任 的 感知 任务 的 机 器 提供 范例 或 算法 。 这 就 
是 Sate 在 1990 年 采用 的 关于 AT 的 陈述 。 请 注意 ， 这 并 不 是 人 工 智 能 惟一 公认 的 定义 。 

-个 如 系统 必须 可 以 完成 :: 种 工作 ; (1) 储 备 知识 ，(2) 
使 用 储备 知识 解决 问题 ，(3) 通 过 经 验 获得 新 知识 。 一 个 人 
系统 有 三 个 关键 部 分 ， 表 示 ， 推 理 和 学 习 ， 如 网 1-24 所 示 。 

1. 表示 。 也 许 拭 最 显著 的 特征 就 足 大 肛 使 用 符号 结构 
语言 表达 感 兴趣 的 问题 领域 的 一 般 知识 和 问题 求解 的 特殊 知 
识 。 这 些 符号 通常 以 常见 的 形式 用 于 公 式 中 ， 使 得 使 用 者 比 
较 容 易 理解 AI 的 符号 去 式 。 确 实 ，AI 明确 的 符号 使 得 它 很 
适合 人 机 交流 。 

人 研究 人 员 所 使 用 的 “知识 "只 不 过 是 数据 的 另 一 种 名 
称 ， 它 可 以 是 说 明 性 的 ， 也 可 以 是 程序 的 。 在 说 明 表 示 中 ， 图 1 34 语系 统 的 三 个 
知识 用 一 种 静态 的 事实 集合 以 及 相应 的 一 小 组 操作 这 些 事实 关键 组 成 名 分 
的 通用 程序 构成 。 说 明 表 示 的 一 个 代表 特征 中 在 使 用 者 眼中 它 自身 拥有 意义 ， 而 与 它们 在 
AI 系统 用 途 无 关 。 另 一 方面 ， 在 程序 表示 中 ， 知 识 械 和 一 种 可 执行 代码 中 ， 由 代码 表达 知 
识 的 含义 。 这 两 种 形式 的 知识 ， 不 管 是 说 明 性 的 或 种 序 的 ， 在 大 多 数 问题 领域 中 都 是 需要 
的 。 

2. 推理 。 在 它 最 基本 的 形式 中 ， 推 理 是 解决 问题 的 能 力 。 一 个 可 以 称 为 推理 系统 的 系 
统 必须 具备 -- 定 条 件 (Fischler and Firschein,1987) 

， 系统 必须 能 够 表示 和 解决 广 证 领域 内 的 问题 和 问题 类 型 。 

， 系统 必须 能 够 利用 它 所 知道 的 明确 的 或 降 含 的 信息 。 

。 系统 必须 有 一 个 控制 机 制 ， 可 以 决定 解决 特定 问题 时 使 用 硅 些 操作 ， 什 么 时 候 已 经 

获得 问题 的 一 个 特定 解 ， 或 者 什么 时 候 应 该 中 止 问题 的 进一步 工作 。 

求解 中 的 问题 可 被 看 作 一 个 搜索 问题 。 处 理 “ 搜 索 "的 通用 方法 是 使 用 规则 、 数 据 、 控 制 
(Nilsson,1980 )。 规 则 作用 于 数据 ， 而 控制 作用 于 规则 。 考 虑 一 个 例子 ,“ 旅 行商 问题 "要 求 
是 找 出 最 短 的 周游 各 个 城市 日 每 个 城市 仅 经 过 一 次 的 旅行 线路 。 这 个 问题 的 数据 由 可 能 的 线 
路 集 和 费用 的 加 权 图 构成 ， 规 则 次 定 从 一 个 城市 到 另 -- 个 战 市 的 路 径 ， 控 制 决定 在 何 时 使 用 
什么 规则 。 

在 现实 中 遇 到 的 很 多 情况 (如 医疗 诊断 )， 可 用 知识 是 不 完整 和 不 准确 的 。 这 时 使 用 概率 
推理 程序 ， 从 而 允许 A1 系统 可 以 处 理 不 确定 性 (Russell and Norvig,1995; Pearnl,1998) 。 

3. 学 习 。 在 图 1-25 所 示 的 简单 机 器 学 习 模型 中 ， 环 境 向 学 习 单元 提供 信息 ， 学 习 单元 
这 些 信息 来 改进 知识 库 ， 最 后 性 能 单元 使 用 知识 库 完成 它 的 任务 。 环 境 给 予 机 器 的 这 些 信 
息 通 常 是 不 完善 的 ， 所 以 学 习 单元 不 能 事先 知道 如 何 补充 遗漏 的 细节 上 或 忽略 不 重要 的 细节 。 
办 而 系统 只 能 赁 狂 测 开始 运行 ， 然 后 接收 性 能 单元 的 反馈 。 反 馈 机 制 可 以 使 机 串 评 价 它 的 候 
设 并 作出 必要 的 修正 。 
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图 1-25 机 器 学 号 的 简单 模式 


机 器 学 习 涉 及 两 种 很 不 一 样 的 信息 处 理 : 归纳 和 和 演绎。 归纳 信息 处 理 ， 一 般 模式 和 规则 
出 原始 数据 和 经 验 决定 。 在 演绎 信息 处 理 中 ， 一 般 的 规则 被 用 来 得 出 特定 的 事实 。 基 于 相似 
性 的 学 习 使 用 归纳 ， 人 是 定理 的 证 明 是 公理 和 已 知 定理 的 演绎 .基于 解释 的 学 习 同 时 使 用 演 
绎 和 归纳 。 

知识 库 的 重要 性 和 学 习 中 的 困难 使 得 发 展 各 种 方法 增加 知识 库 。 特 别 是 ， 如 果 在 给 定 领 
域 有 专家 ,那么 取得 编辑 好 的 专家 经 验 比试 多 复 制 和 亲自 经 历 获得 经 验 的 过 复归 容 易 得 多 。 
实际 .上 ， 这 就 是 专家 系统 的 思想 。 

怎样 将 熟悉 符号 的 AI 机 器 与 作为 认 知 模型 的 神经 系统 进行 比较 ? 为 了 这 个 比较 ， 我 们 
作 下 而 3 分支: 解释 水 平 ， 处 理 风格 和 表示 结构 (Memmi,1989) 。 

1. 解释 水 平 。 传 统 的 AI 中 ， 重 点 是 建立 符号 表示 ， 这 样 称 呼 大 概 是 因为 它们 代表 某 些 
事物 。 从 认 知 的 观点 ，AlL 很 设 存 在 心理 表示 ， 并 且 它 以 符号 表示 的 顺序 处 理 对 认 知 建 模 
(Newell and Simon ,1972)。 

另 一 方面 ， 神 经 网 络 强调 的 重点 是 并 行 分 布 式 处 理 (PDP) 模 型 的 发 展 。 这 些 模型 假定 信 
息 处 理 通过 大 量 神经 元 间 的 相 世 作用 来 进行 ， 网 络 中 每 个 神经 元 发 送 兴奋 或 抑制 信号 给 其 他 神 
经 元 (Rumelhart and MeClelland,1986 )。 同 时 ， 神 经 网 络 更 强调 认 知 现象 的 神经 生物 学 解释 。 

2. 处 理 凤 烙 。 在 传统 的 AI 中 ， 如 同 在 典型 的 计算 机 程序 中 一 样 处 理 是 串 行 的 。 即 使 在 
没有 事先 确定 的 顺序 (例如 扫描 专家 系统 的 事实 和 规则 ) 的 情况 下 ， 处 理 还 是 -… 步 一 步 进行 
的 。 串 行 处 理 的 灵感 最 可 能 来 自 自然 语言 和 逮 辑 推理 的 捍 行 性 以 及 von Neumamn 机 器 的 结 
构 。 不 应 忘记 ， 传 统 的 AI 在 von Neumann 机 器 之 后 不 久 诞生 的 ， 它 和 von Neumann 机 器 有 着 
相同 的 智力 纪元 。 
相反 ， 并 行 性 在 概念 上 不 仅 是 神经 网 络 信息 处 理 的 本 质 ， 也 是 它们 灵活 性 的 来 源 。 并 且 
并 行 性 是 大 规模 的 ( 几 十 万 个 神经 元 )， 这 给 予 神经 网 络 一 个 很 好 的 曾 棒 性 。 计 算 被 扩展 到 许 
多 神经 元 网 络 中 ， 个 别 神经 元 的 状态 同 它们 的 期 拨 值 偏离 并 不 重要 。 噪 音 输 和 人 或 者 不 完全 的 [36] 
输入 也 可 以 被 识别 ， 受 损 网 络 也 可 以 满意 工作 ， 并 上 世 学 习 不 必 完 美 。 网 络 的 性 能 在 一 定 范围 
内 缓慢 下 降 。 网 络 甚至 可 以 通过 *“ 粗 编码 "而 更 加 健壮 (Hinton,1981) ， 这 里 每 个 特征 散布 在 几 
个 神经 元 上 。 

3. 表示 结构 。 传 统 的 AI 追求 思维 的 语言 为 模型 ， 我 们 发 现 符号 表示 具有 拟 语言 结构 。 

像 自然 语言 的 表示 一 样 ， 经 典 的 Al 故 示 一 般 很 复杂 ， 它 由 简单 符号 以 系统 化 方式 建立 。 给 
定 有 限 的 符号 集 ， 有 意义 的 新 表达 式 可 能 由 符号 表达 式 的 给 合 性 以 及 请 法 结构 和 语义 的 类 上 比 
构成 。 

表示 的 本 质 和 结构 是 神经 网 络 的 关键 问题 。 人 在 1988 年 3 月 《Cognition}( 识 知 ) 杂 志 的 特刊 
上 ，Foder 和 Pylyshyn 有 力 地 批评 了 神经 网 络 在 处 理 认 知 和 语言 中 的 计算 适宜 性 。 他 们 表示 
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神经 网 络 处 在 两 个 基本 的 认 知 问题 的 错误 一 边 上 :， 心理 表示 的 性 质 和 心理 过 程 的 木质 。 接 他 
门 的 观点 ， 对 于 传统 的 如 而 言 : 
* 心理 表示 独特 地 帮 达 了 组 合 的 组 成 结构 和 组 合 语义 
*， 心理 过 程 对 它们 操作 的 表示 的 组 人 台 结 结 向 特别 敏感 。 
但是 ， 这 不足 对 神经 网 络 来 说 的 。 
总 起 米 说 ， 我 们 可 以 把 符号 化 AI 描述 成 是 算法 语言 和 数据 霄 示 的 由 项 向 下 的 形式 操作 。 
阳 是 ， 可 以 把 神经 网 络 描述 成 星 具 有 天 生 的 学 习 能 力 的 并 行 分 布 式 处 理 器 ， 通 常 以 由 底 向 上 
的 方式 运行 。 对 于 实现 认 何 任务 ， 看 起 米 不 能 单独 使 用 基于 符号 AI 或 神经 网 络 寻 求 答案 ， 
一 个 更 有 效 的 方法 是 集成 二 者 ， 建 立 结构 化 的 连接 论 者 模型 或 混合 系统 。 这 样 做 ， 我 们 能 组 
合 神经 网 络 的 期 望 自 适应 必 、 鲁 棒 性 及 一 致 性 特征 以 及 符 吕 AI 固有 的 袁 示 、 推 理 及 通用 性 
竺 征 (Feldman, 1992; Wallz, 1i997 )。 实 际 上 ， 基 于 这 个 日 标 ， 已 开发 出 从 训练 过 的 神经 网 络 中 
册 取 规则 的 方法 。 除 了 理解 怎样 集成 符号 和 连接 论 者 方法 以 建立 智能 机 器 ， 从 神经 岗 络 中 抽 
取 规 则 还 其 他 几 个 原因 (Andrews and Diederich ,1996) : 

” 用 户 接近 和 理解 神经 网 络 的 内 部 状态 有 助 于 确认 软件 系统 中 神经 网 络 组 作 的 正确 件 。 

"” 通过 (1) 辩 别 没有 适当 表示 的 训练 数据 在 输入 空间 中 区 域 ， 或 (2) 拱 明神 经 网 络 可 能 

无 法 推广 的 环境 ， 提 高 神经 网 络 的 泛 化 能 力 。 

，。 发 现 用 于 数据 探索 ( 挖 握 ) 的 输入 数据 的 潜在 特征 。 

，” 在 智能 机 器 开发 中 提供 穿越 连接 论 者 方法 和 符号 方法 的 边界 的 手段 。 

*。 在 安全 性 为 必要 条 件 的 特殊 类 型 的 系统 中 满足 安全 的 严格 需要 。 


1.9 历史 注释 


我 们 用 一 些 历史 注释 拉 结 束 这 一 章 对 神经 网 络 的 介绍 。 

现代 的 神经 网 络 开始 于 MeCulloch and Pitts(1943) 的 开 哲 性 工作 。MeCulloch 被 培养 成 精神 
病 学 家 和 解剖 学 家 。 他 用 20 年 的 时 间 几 虑 神经 系统 中 关于 事件 的 表示 问题 。Pits 是 数学 天 
才 ， 于 1942 年 加 入 MeCulloch 的 工作 。 根 据 Rall1990) ，WMieCulloch 和 Pits 1943 年 写 的 论文 在 
一 个 神经 建 模 小 组 公布 时 ， 该 小 组 在 Rashevsky 领导 下 在 芝 加 机 大 学 至 少 五 年 前 就 很 活跃 了 。 

在 他 们 的 经 典 论文 里，MeCulloch 和 Pitts 结合 了 神经 生理 学 和 数理 逻 簿 的 研究 描述 了 一 
个 神经 网 络 的 多 辑 演算 。 他 们 的 神经 元 模型 假定 遵循 一 种 上 所谓“ 有 或 无 "( olLornone ) 规 则 。 
如 果 如 此 简单 的 神经 元 数目 足够 多 和 适当 设置 突 触 连接 并 且 同 步 操作 ，McCulloch 和 Pits 证 
明 这 样 属 成 的 网 络 原则 上 可 以 计算 任何 可 计算 函数 。 这 是 一 个 有 重大 意义 的 结果 ， 有 了 它 就 
标志 着 神经 网 络 和 人 工 智能 学 科 的 诞生 。 

NMeCulocb 和 Pits 1943 年 的 论文 从 那 时 直到 现在 一 直 被 广泛 阅读 。 它 影响 了 von 
Neumam， 使 得 他 在 EDVAC(Flectronic Diserete Variable Automatic Conputer， 电 子 离散 变 元 自动 
计算 机 ) 中 ， 使 用 从 MeCulioch 和 Pitts 的 神经 元 导出 的 理想 化 升 关 延迟 元 件 ， 这 人 台 机 器 是 从 
ENIAC(Electronie Numerical Integrator and Computer， 电 子 数 值 积分 顺和 计算 机 ) 发 展 而 来 的 
《Aspray and Burks,1986)。FNIAC 是 第 一 台 通用 电子 计算 机 ， 从 1943 年 到 1946 年 在 宾 罗 法 尼 
亚 大 学 摩尔 电子 工程 学 院 建成 。 MeCulloch-Pitts 的 形式 化 神经 网 络 理 论 ， 在 von Neumana 1949 
年 在 Hiineis 大 学 所 帮 的 四 个 报告 的 第 二 个 报告 中 成 为 主要 内 容 。 

1948 年 ，Wiener 的 名 著 《Cyiermnetics》( 控 制 论 ) 出 版 ， 为 控制 、 通 信和 统计 信号 处 理 描述 
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了 某 些 重 归 概念 。1961 年 读书 第 二 版 出 版 发 行 ， 泊 加 了 关于 学 习 和 自 组 织 的 新 材料 。 在 第 
二 版 的 第 2 章 中 ，Wiener 看 来 在 主题 方面 抓 住 了 统计 力学 的 物 霸 意义 ， 但 是 把 统计 力学 和 学 
习 系 统 连 系 起 来 获得 丰硕 成 果 ， 却 留 给 了 Hopfield( 在 30 多 年 以 后 )。 

神经 网 络 第 二 个 重要 发 展 是 在 1949 年 Hebh 的 书 《 Te Orgunizarion of Beharior》( 行 为 组 织 
学 ) 出 版 他 在 书 中 第 一 次 清楚 说 明了 突击 修正 的 和 牛 理 学 学 习 规则 。 特 别 是 ，Hebb 提出 人 脑 
的 连接 碍 式 在 机 体 学 习 不 同 功能 任务 时 是 连续 变化 的 ， 神 经 组 织 就 是 通过 这 种 变化 创建 起 来 
的 。Hebb 继 取 了 Ramn y Caj 齐 早期 的 假 惕 并 引信 自 己 现 在 善 各 的 学 习 假 说 ， 邵 两 个 神经 元 
之 问 的 可 变 罕 触 的 作用 被 突 触 两 端 神经 元 中 一 个 对 另 一 个 的 重复 的 激活 加 强 了 了 。Hebb 的 书 
存心 理学 家 中 有 巨大 的 影响 ， 查 遗 钴 的 是 对 工程 界 影响 很 少 或 没有 影响 。 

Hebh 的 书 是 学 习 系 统 和 自 适 庶 系 统 的 计算 模型 发 展 的 灵感 源泉 。Rochester，Holland， 
Haibt and Duda 的 沦 文 (1956)， 也 许 是 用 计算 机 模拟 测试 以 Hebb 学 习 假 党 为 基础 的 严格 公式 
化 的 神经 理论 的 第 一 次 尝试 ; 论文 报告 的 模拟 结果 表明 必须 加 上 抑制 理论 才能 实际 工作 ， 问 
一 年 ，Utuley(1956) 演 示 了 带 有 可 修改 的 突 触 的 神经 网 络 ， 可 以 学 习 分 类 简 革 的 二 值 模式 集 。 
Uttley 引信 了 所 谓 泄漏 集成 和 点 火 圳 经 元 (leaky integrate and fihe neumny， 后 来 Caianiello(1961) 
对 它 进行 了 形式 化 分 析 。 在 再 较 晚 的 工作 中 ，Ltley(1979) 假设 了 神经 系统 可 变 突 触 的 作用 
依赖 于 突 扰 两 端 波 动 状态 的 统计 关系 ,因此 和 Shannon 的 信息 沦 联 系 起 来 。 

1952 年 &shby 的 书 6 Design for a Baip ， Ze Origip of hdaptine Behasior》( 脑 的 设计 : 自 适 应 
行为 的 起 源 ) 出 版 ， 今 天 读 起 来 和 过 去 - - 样 也 足 引 人 人 胜 的 。 这 本 书 关注 的 是 基本 概念 ， 即 
自 适 应 行为 不 是 于 与 生 俱 来 而 是 后 天 学 习 的 ， 通 过 学 习 动 物 (系统 ) 的 行为 变 得 更 好 。 这 本 书 
强调 活 的 机体 如 同 机 器 的 劲 态 方面 和 有 关 稳 定性 的 概念 。 

1954 年 Minsky 在 普林斯顿 人 学 写 六 神经 网 络 " 的 捕 上 论文 ， 题 日 是 “Theory of Neural- 
Analog Reinforcement Systems and ls Application to 中 e Brain-Model Problem”。1961 年 Minsky 发 表 
了 早期 关于 并 的 优秀 论文 Steps Toward Artifeial Intelligence”， 后 面 这 篇 文章 包括 了 有 有 关 现在 
称 为 神经 网 络 内 容 的 “大 节 。1967 年 Minsky 出 版 了 《 Computalion :。 Pinile and Jinize Hacjiines》 
〈 计 算 : 有 限 和 无 限 机 器 ) 这 本 书 、 它 是 第 一 本 以 书 的 形式 扩展 了 MeCulloeh 和 Pits 1943 年 的 
绊 果 ， 并 把 它们 置 于 自动 机 理论 和 计算 理论 的 背景 中 。 

也 是 在 1954 年 ，Gabeor 所 出 了 非 线性 自 适 应 沥 波 器 的 思想 ， 他 是 早期 通信 理论 的 先驱 者 
之 一 和 全 息 照 相 术 的 发 明 者 。 他 楼 着 在 合作 者 的 帮助 下 致力 于 建立 这 样 的 机 器 ， 其 细节 描述 
在 Cabor et 引 .(1960) 中 。 通 过 把 随机 过 程 样本 以 及 希望 机 器 产生 的 目标 函数 一 起 提供 给 机 器 
来 完成 学 习 。 

2 世纪 50 年代、Taylor(1956) 开 始 研究 联想 记忆 。 接 着 Steinbuch(1961) 引 人 了 学 习 起 阵 ; 
这 个 玩 阵 由 播 在 成 行 的 "感觉 "接收 器 和 "马达 "效应 器 之 间 的 开关 平面 网 络 构成 。 在 1969 生 ， 
Wilishaw, Bunetman 和 Longuet-Higeins 发 表 了 关于 非 全 息 照 相 术 的 联想 记忆 的 优秀 论文 。 这 篇 
文章 给 出 了 两 类 网 络 模型 ， 实现 相 关 和 矩阵 的 简单 光学 系统 和 由 光学 记忆 提出 的 与 之 相关 的 神 
经 网 络 。 联 想 记忆 早 期 发 展 的 其 他 重要 贡献 包括 Anderson(1972) ，Kehonen(1972) 和 Nakane 
(1972) 的 文章 ， 他 们 在 同一 年 在 外 积 学 习 规则 的 基础 上 独立 地 引 人 相 关 扎 阵 记 忆 的 思想 。 

Von Neumamn 是 20 世纪 前 50 年 的 科学 巨 码 。 数 字 计 算 机 设计 的 基础 von Neumann 结 煌 为 
了 纪念 他 而 命名 的 。1955 年 耶鲁 大 学 邀请 他 在 1956 年 作 Siliman 报告 。 他 死 于 1957 年 ， 稍 
后 他 的 术 完 成 的 Silliman 报告 手稿 出 版 成 书 : 《Je Commuer and jze Braia》( 计 算 机 和 人 腑 ， 
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1958)。 这 本 书 很 有 意思 ， 因 为 它 提示 了 如 杂 von Neumann 不 死 他 会 做 什么 ; 他 开始 意识 到 人 
脑 和 计算 机 的 己 大 差异 。 

神经 网 络 中 特别 关心 的 一 个 问题 是 利用 被 认为 不 可 靠 的 神经 元 部 件 构建 可 靠 的 神经 网 
缁 。von Neumann(1956) 利 用 宛 余 的 思想 解决 了 这 个 重要 的 问题 ， 这 种 思想 使 得 Winograd 和 
Cowan(1963) 建 议 在 神经 网 络 中 使 用 分 布 式 宛 余 去 示 。 他 们 本 时 大 量 的 元 性 怎样 能 集体 表示 
增加 重 棒 性 和 并 行 性 的 单个 概念 。 

在 MeCulloch 和 Pits 的 经 典 沦 文 发 表 15 年 以 后 ，Rosenblatt(1958) 在 他 有 关 感 知 器 的 研究 
中 提出 了 模式 识别 问题 的 新 方法 ， 一 种 新 的 有 监督 学 习 方 法 。 所 谓 的 感知 器 收效 定理 使 
Kosenblatt 取得 巨大 的 成 功 。Rosenblatt(1960b) 年 概述 了 感知 器 收敛 定 理 的 第 一 个 证 明 ; 该 定 
弄 的 证 明 也 出 现在 Novikoft( 1963) 和 其 他 人 的 上 作 中 。Widrow 和 Hoff 引进 了 最 小 均 方 LLMS) 算 
法 并 用 它 徇 成 了 Adaiine(adaptive tinear element， 自 适应 线性 元 件 )。 感 知 器 利 Adaline 的 区 别 
在 于 训练 过 程 。 最 早 的 可 训练 的 具有 多 个 白 适 应 元 件 的 分 层 神 经 网 络 之 一 是 由 Widmw 和 他 
的 学 牛 提出 的 Madalinet mulliple-adaline) 结 爸 (Widrow,1962) 。1967 年 Amari 把 随机 梯度 方法 用 
于 模式 分 类 .。1965 年 Nilsson 出 版 《Learning Machines》( 学 习 机 器 ) 一 书 ， 迄 今 为 止 仍 是 -本 用 
超 平面 区 分 线性 可 分 模式 的 最 好 的 苦 作 。 在 20 其 纪 6 年 代 感知 器 的 经 典 时 期 ， 好 像 神经 网 
络 可 以 做 任何 事 。 但 是 ， 随 之 而 来 的 Minsky 和 Papert(1969) 的 书 ， 利 用 数学 证 明 单 层 感知 器 
所 能 计算 的 根本 局 限 。 在 有 关 多 层 感知 器 的 简短 -- 节 中 ， 他 们 认为 没有 任何 型 由 假定 单 层 感 
知 器 的 任何 局 幅 可 以 在 多 层 的 情况 下 被 上 服 。 

在 多 层 感 知 器 的 设计 中 而 痢 一 个 重要 的 问题 就 是 们 任国 值 问题 ( 即 队 藏 神经 元 在 网 络 中 
的 信任 赋值 问题 )。Minsky(1961) 在 他 的 “增强 学 习 系统 的 信任 赋值 问题 "中 首次 使 用 了 "信任 
赋值 " 术 诸 。 在 60 年 代 末 ， 提 出 了 解决 感知 器 的 信任 赋值 问题 所 必需 的 大 多 数 的 思想 和 基本 
概念 如 像 现 在 称 之 为 Hopfield 网 络 的 递归 (吸引 子 神经 ) 网 络 所 固有 的 许多 基本 思想 。 然 
而 ， 直 到 80 年 代 这 些 革 本 问题 的 解 才 出 现 。 根 据 Cowan(1990)， 十 多 年 的 这 种 推 延 主要 有 三 
个 原因 : 


















































， 一 个 原因 是 技术 性 的 一 -没有 个 人 电脑 或 工作 站 作 实验 。 例 如 ， 当 时 Gabor 发 明了 
他 的 非 线性 学 习 滤 波 器 ， 而 他 的 研究 组 为 此 花 了 另外 六 年 多 的 时 间 用 模拟 装置 建立 
了 一 个 滤波 器 (Gabor,1954;Cabor et al. .1960)， 
* 另外 的 原因 部 分 是 心理 上 的 ， 部 分 是 经 费 上 的 。Minsky 和 Paper 存 1969 年 的 专题 论 

文 当 然 不 鼓励 任何 人 开展 感知 器 的 研究 工作 或 … 些 机 构 去 支持 他 们 研究 。 
， 在 神经 网 络 和 顶 格 自 旋 之 间 的 类 比 还 木 成 熟 、 直到 1975 年 Shermrington 和 Kidapatrick 
才 发 明了 自 旋 玻 璃 网 模型 。 
在 70 年 代 这 些 因素 以 这 种 或 那 种 方式 胆 租 了 人 们 进一步 研究 神经 网 络 。 除 了 一 些 心理 
学 和 神经 科学 方面 的 专家 之 外 ,许多 研究 人 员 在 那个 时 期 都 改变 了 研究 领域 。 确 实 只 有 届 指 
可 数 的 早期 并 创 者 继续 神经 网 络 研究 。 从 工程 学 的 和 角度， 我 们 可 以 回 过 头 来 将 70 年 代 视 为 
神经 网 络 的 潜伏 期 。 
在 加 年 代 出 现 的 一 个 重要 活动 就 是 利用 竞争 学 习 的 自 组织 片 射 。von der Malshurg(1973) 
完成 的 计算 栅 借 拟 工作 也 许 是 第 一 次 演示 了 自 组 织 。 在 人 脑 中 拓扑 有 序 映 射 启发 下 ，1976 

年 Willshaw 和 von der Malsburg 发 表 了 第 一 篇 关于 自 组 织 映 射 形成 的 论文 。 

在 80 年 代 神经 网 络 的 理论 和 设计 主要 是 在 几 个 前 沿 方面 取得 了 成 绩 ， 和 随 之 神经 网 络 的 

































































交合 





研究 下 作 进入 了 恢复 期 。 


Grossberg(1980) ， 基 于 他 的 竞争 学 习 理 论 的 早期 工作 ( Crossberg, 1972 ,1976a,b) ， 建 立 
一 个 新 的 自 组 织 原则 ， 就 是 著名 的 自 适应 共振 理论 (adaptive resonance theorr,ART)。 基 本 上 
说 ， 这 个 理论 包括 一 个 由 底 向 上 的 识别 层 和 一 个 由 顶 向 下 的 产生 层 。 如 果 输 人 模式 和 已 学 习 








的 反馈 模式 此 配 ， 一 个 叫 向 “ 自 适 应 共振 "的 动态 状态 ( 即 神经 活动 的 放大 和 延长 ) 就 会 发 生 。 
这 个 前 向 / 反 向 映射 原 刚 马 由 其 他 的 研究 者 在 不 同 的 条 件 下 重新 发 现 。 





在 1982 年 ，Hopfield 用 能 量 函 数 的 思想 形成 -种 了 解 具 有 对 称 突 触 和 还 按 的 递归 网 络 所 执 
行 的 计算 的 新 方法 。 并 且 他 在 这 种 递归 网 络 和 统计 物理 中 使 用 的 ing 模型 之 间 建 立 了 同 构 。 
这 个 类 比 为 一 连 溃 的 物理 理论 ( 和 物理 学 家 ) 进 入 到 神经 元 模型 铺 平 了 道路 ， 因 此 神经 网 络 的 

















领域 变化 了 了。 这 类 具有 区 馈 的 特殊 神经 网 络 存 80 年 代 引 起 了 人 





基 的 关注 ， 在 那个 时 期 产生 


了 著名 的 Hopfield 网 络 。 尽 管 Hopfield 网 络 可 能 不 是 真正 的 神经 止 物 系统 模型 ， 它 们 包涵 的 
原理 ( 即 在 动态 的 稳定 网 络 中 存 鳍 信息 的 凯 理 ] 是 极 深 刻 的 ， 事 实 上， 这 个 原理 可 以 追 潮 到 许 





多 其 他 研究 者 的 开拓 性 工作 : 





*。 Cragg and Tamperley(1954, 1955) 从 观察 得 出 ， 正 是 由 平 神经 元 能 被 “点 火 "( 激 活 ) 或 
“不 点 火 “ 藤 正 ) ， 所 以 在 一 个 栅 网 中 的 原子 可 以 使 它们 自 旋 指 向 “上 "或 "下 ”。 





且 探 索 了 作为 短期 记忆 为 基础 的 模型 用 途 。 





件 的 动态 行为 。 
Wilson,Cowant1972) 推 邓 了 包括 兴奋 和 抑制 模型 神经 元 的 
合 非 线性 微分 方程 。 








亿 理 论 。 


由 一 个 耦合 非 线形 动力 党 的 简单 联想 网 络 组 成 。 
因此 豪 不 奇怪 ，1982 年 Hopfield 的 论文 发 表 后 引起 了 很 大 争 


Cowan(1967) 引 入 了 ”sigmoid 激活 特征 和 一 个 神经 元 其 于 logistic 函数 的 平滑 激活 条 件 。 
Crmossberg( 1967,1968) 引 入 了 一 个 神经 元 的 加 性 模型 ， 涉 及 非 线性 差分 /微分 方程 ， 并 








aman(1972) 独立 地 引信 了 了 神经 元 的 加 性 模型 ， 并 用 它 研究 随机 连接 的 类 神经 元 的 元 


空间 局 部 化 的 群体 动力 学 帮 


Tittle and Shaw(1975) 描 述 了 神经 元 激活 或 不 激活 的 概 率 模型 ， 并 用 它 发 展 了 短期 记 


Anderson Silverstein ,Ritz and Jones(1977) 提 出 爹 中 脑 状 态 (brain-state-in-a-box,BSB) 模 型 , 


论 。 不 过 ， 该 论文 第 一 次 使 


在 动态 的 稳定 网 络 中 存储 信息 的 原理 清楚 了 。Hopfiled 表明 了 他 对 从 统计 力学 自 旋 玻 璃 模型 
检验 具有 对 称 连接 的 特殊 递归 网 络 富 有 洞察 方 ， 对 称 件 设计 可 以 保证 收 伍 到 一 个 稳定 的 条 
件 。1983 年 ，Cohen 和 Grossberg 建立 了 包括 时 间 逢 续 Hopfield 网 络 作为 特例 的 评价 按 内 容 时 
盐 记 忆 的 一 般 原则 。 吸 引子 神经 网 络 的 一 个 与 众 小 同 的 特征 ， 是 以 白 然 的 方式 证 明白 己 处 于 
网 络 的 非 线性 动力 学 中 ， 用 这 种 方式 ， 时 间 是 学 习 的 重要 维 数 。 在 这 个 背景 下 Cohen- 





Gmssberg 的 定理 非常 重要 。 
1982 年 另 一 个 重大 发 展 是 Kohonen 关于 使 用 一 维 或 二 维 格 网 








结构 的 自 组 织 映 射 研究 的 文 











章 , 这 在 某 些 方面 与 Wilshaw 和 von der Malsburg 稍 后 的 工作 不 同 











。 在 文献 中 Kohonen 工作 在 


分 析 和 应 用 方面 比 由 llshaw 和 von der Malsburg 的 模型 得 到 了 更 多 的 注意 ， 已 经 成 为 这 一 领域 




















他 创新 的 评估 标准 。 


1983 年 Kirkpatrick ，Gelatt 和 Vecchi 描述 了 解决 组 合 最 优化 的 问题 的 称 为 模拟 退火 的 新 
方法 。 模 拟 退 火 植 根 统计 力学 ， 是 基于 Wetropoiis et al,(1953) 在 计算 机 仿真 中 首先 使 用 的 一 
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种 简单 技术 。Ackley， 下 nton and Sejoowski(1985) 利 用 异 拟 退火 的 思想 发 展 称 为 Bojumann 机 的 
随机 机 器 ， 它 是 多 层 齐 经 网 络 的 第 一 个 成 功 实现 。 虽 然 证 明 Boltzmann 机 的 学 习 算法 没有 反 
向 传播 算法 的 计算 效率 高 ， 介 它 证 明了 Minsky and Papert(1969) 的 猜想 是 不 成 立 的 ， 打破 了 
心理 障碍 。Boliamam 机 也 为 Neal(1992) 随 后 的 sigmoid 信 度 网 络 的 发 展 作 了 铺垫 工作 .sigmoid 
信和 麻 网 络 完成 了 两 件 事 : (1) 学 习 显 著 改 善 ; (2) 联 系 了 神经 网 络 和 信 度 网 络 。sigmoid 信 度 网 
络 学 习性 能 的 进 . - 步 提高 是 Sanl，Jakkolla and jordan 1996) 利 用 一 个 植 根 于 统计 力学 的 平均 
场 理论 作出 的 。 

Barto，Sutton 和 Anderson 一 篇 关于 增强 式 学 习 的 论文 发 表 于 1983 年 。 虽 然 他 们 不 是 第 一 
次 使 用 增强 式 学 习 (例如 Minsky 在 他 1954 年 的 博 二 论文 中 考虑 过 它 )， 但 这 篇 文章 引起 了 关 
于 增强 式 学 习 及 其 在 控制 中 应 用 的 极 大 兴起。 特别 是 ， 他 们 证 明了 一 个 增强 式 学 习 系 统 可 以 
在 没有 帮助 教师 的 情况 下 学 习 平 衡 倒立 摆 (brmomstick ， 即 车 上 立 的 杆 )。 学 翌 系统 仅 要 求 当 杆 
对 坚 直 方向 倾斜 超过 一 定 角度 或 车 到 达 轨 道 的 端点 时 发 出 失败 信号 。1996 年 Bersekas 和 
Tsitsiklis 的 著作 《Aeuro dmnamic)( 神 经 - 动态 规划 ) 出 版 ， 这 本 书 把 增强 式 和 Bellman 的 动态 规 
划 相 联系 ， 把 它 放 在 一 个 恰当 的 数学 基础 上 。 

1984 年 Braitenherg 的 书 TeRicles 。 Riperimenis 识 gmijelio Piyoiology》(1 具 :综合 心理 学 
的 实验 ) 册 版。 在 这 本 书 中 Braitenberg 提出 了 目标 导向 的 自 组 织 行为 原则 : 利用 公 尖 的 基本 
机 制 的 综合 而 非 由 项 向 下 的 分 析 是 最 好 了 解 一 个 复杂 过 程 的 方法 。 在 科幻 小 说 的 形式 下 ， 
Braitenberg 通过 描述 各 种 具有 简单 内 部 结构 的 机 笑 说 明了 这 个 重 归 原 则 。 他 对 这 样 一 个 主题 
直接 或 间接 研究 了 二 十 多 年 : 这 些 机 器 的 特性 和 它们 的 行为 受到 有 关 动 物 脑 的 事实 的 启迪 。 

1986 年 Rumelhat，Hinton 和 Williams 报告 了 反 向 传播 算法 的 发 展 。 同 一 年 ， 由 Rumelhar 和 
MeClelland 编 和 缉 的 著名 的 两 卷 集 著作 《 Parrjlel Distribuzed Piocesing: 本 pioralions in bie 县 mostiuchoes 
坟 Cognition 并 行 分 布 式 处 理 : 认 知 微 结 构 的 探索 ) 出 版 。 后 -本 书 在 反 向 传播 算法 的 使 用 
方面 产生 重大 影响 ， 它 已 成 为 最 通用 的 多 层 感知 器 的 训练 算法 。 事 实 上 ， 反 向 传播 学 习 在 回 
一 时 间 在 其 他 两 个 地 方 被 独立 发 现 ( Parker, 198$; LeCun,1985)。 在 80 年 代 中 期 发 现 反 向 传播 
算法 后 ， 获 悉 Harvard 大 学 的 Werkos 早 在 1974 年 8 月 的 博 上 学 位 论文 已 经 描述 了 上 ; Werbos 的 
博 七 论文 是 描述 有 效 的 反 转 模式 梯度 计算 的 第 一 篇 文献 ， 它 被 用 于 以 神经 网 络 作为 特例 的 一 
般 网 络 模型 。 反 向 传播 的 基本 思想 可 进一步 追 潮 到 Bryson 利 Ho(1969) 的 书 《4pplied Optinaz 
Conirof 光 应 用 最 优 控制 )。 在 该 书 标题 为 “多 阶段 系统 ”的 2.2 节 中 ， 描 述 了 使 用 Lagmange 形式 
的 反 向 传播 推导 。 但 是 ， 最 终 的 分 析 得 出 反 向 传播 算法 的 许多 荣誉 属 于 Rumelhart，Finton 和 
Winiams(1986)， 因 为 他 们 提出 了 它 在 机 器 学 习 中 的 应 用 并 且 演 示 了 它 怎样 工作 。 

1988 年 Linsker 撕 述 了 认 知 网 络 中 自 组 织 问题 的 新 原理 (Linsker, 1988a)。 这 个 原理 被 设计 
成 保持 有 关 输 入 活动 模式 的 最 大 信息 ， 以 这 样 的 约束 限制 突 般 连 接 和 突 触动 态 范围 。 其 他 几 
位 视觉 研究 者 也 提出 了 相似 的 建议 。 但 是 ， 是 Linsker 使 用 植 根 于 信息 理论 的 抽象 笑 念 提出 
了 最 大 巨 信息 (infpmax) 原 至。Linsker 的 文章 重新 激发 了 把 信息 理论 应 用 到 神经 网 络 中 的 兴 
趣 。 特 别 是 ，Bell and Sejnowski(1995) 所 作 的 信息 理论 对 讶 信号 源 分 离 问 题 的 应 用 已 经 促使 许 
多 研究 者 探索 用 于 求解 统称 为 育 反 卷 积 的 很 大 一 类 问题 的 其 他 信息 理论 模型 。 
同样 在 1988 年 ，Rroomhead 和 Lowe 描述 了 使 用 径 向 基 函 数 (radial basis funetion ,RBF) 设 计 
多 层 前 馈 网 络 的 过 程 ，RBF 提供 了 多 层 感 知 器 的 另 一 碗 择 。 径 向 基 函 数 的 基本 想法 至 少 追 淖 
到 Bashkiroy ，SBraverman and Muchnik(1964) 首 先 提出 的 劳 函数 方法 以 及 Aizernan，Braremman 
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and Rozonoer( 1964a,b) 发 展 的 势 函 数理 论 。Duda 和 Har(1973) 的 经 典 著 人 必 《 Patkem Clussyicalion 
and Scene 4napsts》( 模 式 分 类 和 场景 分 析 ) 给 出 了 势 画 数 方法 的 一 个 撒 述 。 不 过 ，Baomhead 
and Lowe 的 文章 导致 了 联系 神经 网 络 设计 和 数值 分 析 的 中 重要 领域 以 及 线性 所 适应 滤波 器 的 
大 其 研究 上 作 .，1990 年 Poggie and Cimsi(1990a) 利 用 Tikhonov 的 正则 化 理论 进一步 丰 富 了 RBF 
网 络 理论 。 

1989 年 Mead 的 《4nalog TIST and Neural Systens3 模 拟 VLSI 和 神经 系统 ) 一 书 出 版 。 这 本 书 
把 从 神经 生物 学 和 VLSI 技术 吸取 的 慨 念 进行 了 不 寻常 的 融合 。 最 重要 的 是 ， 它 包括 Mead 和 他 
的 合作 者 写 的 关于 硅 视 网 膜 和 硅 耳 蜗 的 儿 章 ， 这 些 都 是 Mead 创造 性 思维 的 活生生 的 例子 。 

在 20 世 纪 9 年 代 早期 ，Vapnik 和 他 的 合作 者 发 明了 具有 强大 计算 能 力 的 一 种 有 监督 学 
习 网 络 称 为 支持 向 量 机 (support vector machine,SVM)， 用 于 解决 模式 识别 、 回 归 和 密度 估计 等 
问题 (Bover, Cuyon and Vapnik ,19923; Cortes and Vapn 永 ,1995;Vapnik,1995,1998)。 这 种 新 方法 是 
基于 有 限 样本 学 习 理 论 的 结果 。 支 持 向 基 机 的 一 个 新 颖 的 特征 就 是 在 它们 的 设计 中 以 自然 的 
方式 包含 了 Vapnik-Chervonenkis(VC) 维 数 。VC 维 数据 供 了 神经 网 络 从 一 -个 样本 集中 学 习 能 力 
的 - -种 度量 (Vapnik and Chervronenkis,1971;Vapnik,1982) 。 

现在 已 很 好 地 建立 了 混沌 嘴 构 成 物理 姥 象 的 关键 方面 。 许 多 人 提出 了 一 个 问题 : 在 神经 
网 络 研究 中 混沌 起 关键 作用 吗 ? 在 生物 环境 下 Freeman(1995) 相信 这 个 问题 的 答案 是 肯定 的 。 
根据 Freeman 的 看 法 ， 神 经 活动 的 模式 不 是 从 脑 外 部 强加 的 ， 而 基 从 内 部 构建 的 。 特 别 是 ， 
混沌 劲 力 学 对 神经 元 群体 的 内 部 和 它们 之 间 纪 现 自 组织 模 式 需 要 的 条 件 提 供 了 进行 描述 的 一 
个 基础 。 

也 许 对 20 世纪 80 年 代 神 经 网 络 兴趣 的 复兴 最 有 影响 的 是 Hopfield 1982 年 的 文章 和 
Rumelhard 和 MecLelland 1986 年 的 吊 卷 书 ， 而 不 足 其 他 的 著作 。 神 经 网 络 认 MeCulloch 和 Pits 
的 早期 岁月 算 起 当然 已 走 过 了 很 长 一 段 路 。 确 实 它 们 已 确立 了 它们 作为 村 根 于 神经 科学 、 心 
理学 、 数 学 、 物 理学 和 工程 的 交叉 学 科 的 地 位 。 无 需 痪 言 ， 项 在 它们 确立 了 这 样 的 地 位 并 将 
在 理论 、 设 计 和 应 用 上 继续 深入 。 


注释 和 参考 文献 


-1] 这 个 神经 网 络 的 定义 来 自 Aleksander and Morton ( 1990) 。 

[2] 神经 网 络 侧重 于 神经 建 模 、 认 知 和 神经 生理 学 方面 的 补充 材料 参看 Anderson (1995)。 
有 关 脑 计算 方面 易 污 的 材料 可 和 参看 Churechland and Sejnowski (1992)。 有关 神 经 机 制 和 人 
脑 的 喝 详 细 的 描述 可 参看 Kandel and Schwarz (1991)，Shepherd ( 1990 a,b ) ，Koch and 
Segev (1989)，Kuffler et 由，(5984) 和 Mreeman (1975) 。 

[3] 关于 sigmoid 函数 和 相关 问题 全 面 叙述 可 参看 Menon et al，{1996)。 

[4] logistic 郑 数 或 更 精确 地 说 logistic 分 布 函 数 的 命名 ， 来 白 见 于 大 重文 献 的 深 筑 的 “logistie 
增长 律 "。 利 用 适当 的 度量 单位 ， 假 定 所 有 的 增长 过 程 可 表示 为 logistie 分 布施 数 

1 
CO 一 Te 

其 中 上 代表 时 间 ，x，P 为 常数 。 但 是 结果 证 明 不 仅 是 logistie 分 布 ， 而 且 Gauss 分 布 和 
其 他 分 布 痢 能 应 用 于 相同 的 数据 ， 取 得 一 样 或 更 好 的 氢 合 (Feller，1968)。 

[5] 根据 Kuffnler et al. 〈t1984),“ 接 受 域 "(xeceptive field) 这 个 术语 最 早 由 Sherington (1906) 创 
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30 彩 了 站 





造 的 ， 并 被 Harline (1940) 重 新 引 人 。 在 视觉 系统 环境 下 ,神经 元 的 接受 域 是 指 视网膜 

面 上 限制 为 光 引 起 神经 元 放电 的 区 域 。 

[6] 看 来 权 值 共享 技术 最 早 在 Ramelphar et al. 〈1986b) 中 描述 。 

[7] 这 里 给 出 的 历史 注释 大 部 分 (但 不 是 全 部 ) 基 于 下 列 资 料 : (1)Saarinen et al.(1992) 的 文 
章 ，(2)Rall (1990) 的 章节 ; (3) Widmow and Lehr (1990) 的 文章 ; (4) Cowan (1990) 以 及 
Cowan and Shamp (1988) 的 文章 ; (5) Crmssberg (1988e) 的 文章 ; (6) 关 于 神经 计算 的 两 郑 
书 (Anderson et al. ，1990， Anderson and Rosenfeld，1988); (7)Selfridge et al.(1988) 的 章 
节 ; (8) von Neumann 关于 计算 和 计算 机 理论 的 论文 集 (Aspray and Burks，1986); (9) 
Abib (1995) 编 辑 的 脑 理论 和 神经 网 络 的 手册 ; (10)Ruasseil and Norig (1995) 的 第 1 章 ; 
(11)Taylor (1997) 的 文章 。 


习题 


神经 元 模型 
1-1 一 个 logistie 琢 数 的 例子 定义 为 




















上 
Yo) = 1 +exp(- ap) 


它 的 极 艰 值 为 0 和 1。 证明 它 关于 " 的 导数 由 
择 = ap(a)[1 - 9(z)] 


给 出 。 这 个 导数 在 原点 的 值 是 多 少 ? 

1.2 一 个 奇 sigmoid 函数 定义 为 

1 -exp(- 四 ) [ 
四 


1+exp(- ar) 一 
其 中 lanh 代表 双 曲 正切 。 这 第 二 个 sigmoid 函数 的 极限 值 为 -1 和 + 1。 证 明 p(z) 关 于 * 的 导 
数 由 


gp) = 




















加 = 19 


给 出 。 这 个 导数 在 原点 的 值 是 多 少 ? 假设 顾 斜 参数 c 无 穷 大 ，9(y ) 的 结果 是 什么 形式 ? 
1.3 另外 一 个 奇 sigmoid 栈 数 是 代数 sigmeid: 
了 
工 + 妇 
它 的 极限 值 为 -1 和 + le 证 明 它 关于 w 的 导数 由 
ae - 玫 () 
本 3 


如 





(2?) = 


给 出 。 这 个 导数 在 原点 的 值 是 多 少 ? 
I.4 考虑 下 列 呐 个 函数 ; 


(be(o) = an(o) 





部。 舍 


了 








解释 为 什么 两 个 话 数 都 满足 sigmoid 函数 的 要 求 。 怎 样 区 别 它们 ? 


1.5 在 问题 1.1 至 问题 1.4 的 五 个 signoid 函数 中 哪些 
的 答案 的 正确 性 。 

1.6 考虑 图 1-26 所 示 的 拟 线性 激活 晒 数 w(w)。 

( 昌 写 出 p(z) 关 于 。 的 函数 公式 。 

(b) 若 e 允许 趋 于 0，9fy) 会 出 现 什 么 情况 ? 

1.7 关于 图 1-27 所 示 的 拟 线性 激活 浮 数 (?) 重 复 























1.8 -个 神经 元 具有 问题 1.1 的 logistic 函数 定义 的 
激活 函数 wp(")， 其 中 。 是 诱导 局 部 域 并 旦 颁 斜 参数 o 可 
调节 。 令 mm ，z，…，z 为 作用 于 神经 元 源 节 点 的 答 
人 信和 号， 袁 表 示 偏 置 。 为 了 表示 方便 起 见 ， 我 们 将 吸收 
倾斜 参数 。 到 诱导 局 部 域 v。 写 成 


oo) = 














你 将 如 何 改变 输入 *， 总 ，…， 各 产生 和 以 前 一 样 的 
结果 ? 证 明 你 的 网 答 的 正确 性 。 

1.9 神经 元 7 从 其 他 四 个 神经 元 接受 输入 ， 它 们 的 
活动 性 级 别 为 10]，- 20. 4 和 - 2。 神 经 元 的 每 个 突 触 








是 累积 (概率 ) 分 布 函数 ? 证 明 你 


YG@)1 








图 1-27 


权 值 分 别 为 0.8，0.2，-- 1.0 和 -0.9。 计 算 下 列 两 种 情况 下 神经 元 7 的 输出 : 


(a) 神 经 元 是 线性 的 。 
(b) 神 经 元 由 MeCuloch-Pitts 模型 表示 。 
假设 神经 元 的 偏 置 为 0。 
1.10 对 基于 logislie 函数 
1 
TD 
的 神经 元 模型 重复 问题 1.9e 





1.11 《sy 证 明 昼 经 元 的 MeCulloch-Pitts 形式 模型 可 由 sigmoid 神经 元 逼近 ( 即 利用 具有 非 


常 大 的 突 触 权 值 的 sigmoid 激活 函数 的 神经 元 )。 


《b) 证 明 线 性 神经 元 可 由 具有 很 小 突 触 权 值 的 sigmoid 神经 元 各 近 。 


网 络 结构 


1,12 ”一 个 全 连接 的 前 锁 网 络 其 有 10 个 源 节 点 ，2 个 隐 层 ， 一 个 隐 层 有 4 个 神经 元 ， 另 
一 个 有 3 个 神经 元 ， 以 及 1 个 输出 神经 元 。 构 造 这 个 网 络 的 结构 图 。 
1.13 (a) 图 1-28 表示 一 个 2-2-2-] 前 饥 网 络 的 信号 流 图 。 函 数 gp(') 表 示 logistic 两 数 。 


写 出 巾 这 个 网 络 定义 的 输入 输出 映射 - 
(D) 假 设 图 1-28 信号 流 图 的 输出 神经 元 运行 在 它 的 线性 
人 输出 峡 射 。 








区 成 。 写 出 由 这 个 网 络 定义 的 输 


1 到 图 1-28 所 描述 的 神经 网 络 没有 偏 剖 。 假 设 第 一 隐 层 的 顶 和 底 神 经 元 的 篇 置 分 别 
为 -1 和 +1， 第 二 隐 层 的 顶 和 底 神 经 元 的 偏 冒 分 别 为 + 1 和 - 2。 写 出 由 这 个 网 络 定义 输入 









































名人 3 中 各 
和 入 各 - 
-1 

4 
中 人 中 人 
各 和 
下 
图 ]-28 


箱 出 映射 的 新 形式 。 
1.15 考虑 一 个 多 层 前 馈 网 络 ， 它 所 有 的 神经 元 运行 在 它们 的 线性 区 域 。 证 明 这 样 的 网 
络 等 价 于 单 层 前 馈 网 络 的 结论 、 






































1,16 构造 一 个 全 连接 的 递归 网 络 ， 它 其 有 5 个 神 | 
经 苑 ， 但 没有 自 反馈 。 

1.17 图 1-29 表示 两 个 神经 元 的 递归 网 络 信号 流 | 
图 。 写 出 定义 xn) 和 *:(n) 演 变 的 非 线性 差分 方程 ， 








这 两 个 变量 分 别 定义 顶部 和 底部 神经 元 的 输出 。 这 个 
方程 的 阶 是 多 少 ? 

118 图 1-30 表示 具有 自 友 馈 的 遇 个 神经 元 的 递 
归 网 络 信号 流 图 。 写 出 描述 系统 运行 的 两 个 一 阶 彬 合 
非 线性 差分 方程 组 。 



































1.19 一 个 递归 网 络 具有 3 个 源 节 点 、2 个 隐藏 神 图 1-29 图 -30 
经 元 和 4 个 输出 神经 抑 。 构 造 描述 这 样 一个 网 络 的 结 
构图 。 
知识 表示 


1.20 一个 有 用 的 预 处 理 形式 足 基于 由 差分 方程 (用 于 实数 值 数据 ) 
Km) = 007( 下 -1) + ao 一 2) + 二 20Wy(E 一 条 ) 二 2) 
措 述 的 自 回 归 (AR) 模 型 ， 其 中 y(a) 是 异型 笨 出 ，*(z) 为 从 零 均 值 和 预定 方差 的 白 噪 声 过 程 
抽取 的 样本 ，z ,ta ,zw 是 AR 司 型 的 系数 ， 而 好 为 模型 阶 数 。 证 明 利用 这 个 模型 提供 两 
种 形式 的 几何 不 变性 : ( 本 尺度 大 小 ; (p) 时 间 平 移 。 在 神经 网 络 中 怎样 利用 这 两 种 不 变性 ? 
1.21 令 x 为 输 人 向 量 ，s(a,z) 为 依赖 于 参数 的 作用 于 x 的 变换 算 子 。 它 满足 两 个 要 
求 ， 








。， SCD,X) = 开 

"， s(a, 台 关于 a 可 徽 

切 向 量 定义 为 偏 导数 ?8(a,X)/oa(Simard et a. ，1992) 。 

假 疫 x 代 表 一 幅 图 像 ，a 是 旋转 参数 。 在 “很 小 时 你 怎样 计算 切身 其 ? 切 向 量 关 于 原 图 
像 的 旋转 是 局 部 不 变 的 ， 为 什么 ? 





2.1 简介 


对 于 神经 网 络 具 有 首要 意义 的 性 质 是 网 络 能 从 环境 中 学 习 的 能 方 ， 并 通过 学 习 改 善 其 行 
为 。 对 行为 的 改善 是 随时 间 恢 据 某 一 规定 的 度量 进行 的 。 神 经 网 络 通过 施加 于 它 的 突 触 权 值 
和 偏 置 水 平 的 调节 的 交互 过 程 来 学 习 它 的 环境 。 理 想 情况 下 ， 神 经 网 络 存 每 一 次 重复 学 习 过 
程 后 对 它 的 环境 便 有 更 多 的 了 解 。 

有 过 多 的 与 学习" 这 个 概念 相 联系 的 行为 ， 以 至 不 能 以 精确 的 方式 对 其 定义 。 而 县 ， 学 
习 过 程 是 这 样 一 种 观点 问题 ， 使 得 在 对 这 个 术语 的 精确 定义 上 很 难 达 成 一 致 。 比 如 ， 心 理学 
家 眼中 的 学 习 与 课堂 中 的 学 习 是 截然 不 同 的 。 需 认识 我 们 的 特殊 兴趣 在 于 神经 网 络 ， 我 们 使 
用 一 个 从 Mendel and MeClaren(1970? 修 改过 的 一 个 关于 学 习 的 定义 。 

我 们 在 神经 网 络 的 背景 中 定义 学 习 如 下 : 

学 习 是 一 个 过 程 ， 通 过 这 个 过 程 神经 网 络 的 自由 参数 在 其 底 入 的 环境 的 激励 过 程 之 下 得 
到 调节 。 学 习 的 类 型 由 参数 改变 的 方式 决定 。 

这 个 学 习 过 程 的 定义 隆 含 着 如 下 的 事实 ; 

1. 神经 网 络 被 一 个 环境 所 激励 。 

2. 作为 这 个 激励 的 结果 ， 神 经 网 络 在 它 的 自由 参数 上 发 生变 化 。 

3. 由 于 神经 网 络 内 部 结构 的 改变 而 以 新 的 方式 响应 环境 。 

建议 解决 学 习 问 题 的 一 个 恰当 定义 的 规则 集合 称 作 学 习 工 法" 。 就 像 人 们 天 料 的 那样 ， 
对 于 神经 网 络 的 设计 没有 惟一 的 学 习 算法 。 然 而 ， 我 们 有 由 不 同学 习 算 法 表示 的 一 组 工具 ， 
每 一 个 有 它 自 己 的 优势 。 基 本 上 ， 学 习 算 法 在 其 对 神经 元 的 突 角 权 值 的 调节 方式 各 不 相同 。 
要 考虑 的 另 一 方面 是 由 一 组 相互 连接 的 神经 元 组 成 神经 网 络 (学 习 机 器 ) 与 其 环境 联系 的 方 
式 。 从 后 一 个 方面 党 ,我 们 提 到 学 习 范 人 鲍 是 指 神 经 网 络 运行 于 其 中 的 环境 的 一 个 模型 。 


本 章 的 组 织 


本 章 由 四 个 相互 联系 的 部 分 组 成 。 第 一 部 分 包括 第 2.2 节 到 2.6 节 ， 我 们 讨论 五 个 基本 
的 学 习 算 法 : 误差 - 修正 学 习 ， 基 于 记忆 的 学 习 ，Hebb 学 习 ， 竞 争 学 习 和 Boltzmann 学 习 。 
误差 修正 学 习 植 根 于 最 优 泪 波 。 基 于 记忆 的 学 习 通过 明确 地 记 住 训 练 数据 来 进行 。Hebb 学 
习 和 竞争 学 习 都 是 受 了 神经 生物 学 上 的 考虑 的 启发 。Boltizmann 学 习 有 所 不 同 ， 因 为 它 是 建 
立 在 从 统计 学 力学 借 来 的 思想 基础 上 。 

本 章 的 第 二 部 分 探讨 学 习 范例 。2.7 节 讨 论 信 任 赋值 问题 ， 它 是 学 习 过 程 的 基础 。2.8 
节 和 2.9 攻 概 述 两 个 基本 学 习 范例 ; (1) 有 教师 学 习 ，(2) 无 教师 学 习 。 

本 章 的 第 三 部 分 包括 2. 10 节 到 2.12 节 ， 考 察 学 习 任务 、 记 人 忆 和 自 适应 的 问题 。 

本 章 的 最 后 部 分 包括 2. 13 节 到 2.15 节 ， 处 理学 习 过 程 的 概率 和 统计 方面 。2.13 节 讨 论 
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34 多 2 于 





数 概 念 的 统计 学 习 理 论 ，VC 维 数 提供 了 对 机 器 能 刀 
区 概念 ， 可 能 近 似 正 俩 (PAC) 学 习 ， 它 为 学 习 过 程 提 


偏 置 /方差 园 境 ，2.14 节 讨 论 基于 VC 
的 一 个 测量 方法 。2.14 节 介绍 另 一 个 让 
供 一 个 保守 的 异型 。 

本 章 在 2.16 和 节 中 用 一 些 最 后 的 评述 作为 结束 。 
2.2 误差 修正 学 习 

为 了 赔 明 第 -- 条 学 习 规则 ， 考 虑 如 图 2-1a 所 示 由 一 个 神经 元 志 构 成 前 饶 神 经 网 络 输出 
层 的 惟一 计算 节点 的 简单 情况 。 神 经 元 六 圳 一 层 或 多 层 隐 藏 神经 元 产生 的 信号 向 董 x(n) 驱 
动 ， 这些 隐藏 神经 元 自身 由 作用 于 神经 网 络 的 源 节 点 (也 就 是 输 人 层 ) 的 输 人 向 量 驱动 。 参 数 
对 表 水 离散 时 间 ， 或 者 更 确切 地 说 ， 是 调节 神经 元 寺 的 突 触 权 值 的 交互 过 程 的 时 间 步 。 神 经 
元 天 的 输出 信号 由 %(n) 表 示 。 这 个 描述 神经 网 络 惟一 输出 的 输出 信号 与 由 四 (nm ) 去 未 的 期 
望 响 应 或 自 标 输出 比较 。 由 此 产生 由 w(m) 表 未 的 误差 信号 。 由 定义 ， 我 们 有 

. efn) = 人 ae) 一 妨 (na) 《2.1》 

误 莽 信号 ee(a) 虹 动 控制 机 制 ， 其 日 的 是 将 修正 调节 序列 作用 于 神经 元 左 的 突 触 权 值 。 修 正 
调节 能 够 以 一 步 步 台 近 的 方式 使 输出 信号 思 (m) 向 期 望 输 出 由 (n) 靠 近 。 这 一 月 标 通 过 最 小 
化 代价 函数 或 性 能 指标 中 nm) 来 实现 。8(m) 借 助 误 差 信 号 w Cn) 定 义 如 下 : 


8(n) = 去 ei(m) (2.2) 


也 就 足 说 ， 有 (za) 是 误差 能 量 的 瞬时 值 。 这 种 对 神经 汇丰 的 突 触 权 值 步 步 逼 近 的 调节 将 持续 
下 去 ， 直 到 系统 达到 稳定 状态 ( 即 突 触 权 值 基本 稳定 下 来 )。 这 时 ， 学 习 过 程 终 止 。 

在 这 里 ， 描 述 的 学 习 过 程 蝇 然 应 被 称 为 误差 -修正 学 习 。 特 别 ， 对 代价 函数 &(m) 的 最 
小 化 导致 了 通常 被 称 作 增 量 规则 或 Widrow-Hoff 规则 的 学 习 规 则 ， 规 则 的 命名 是 为 了 纪念 它 
的 发 明 虱 (Widrow and Hoff,1960 )。 令 zw(m) 表 示 在 第 n 时 间 步 ， 被 信号 向 量 x(m) 的 区 《) 
分 基 激 发 的 神经 元 # 的 突 触 权 值 。 根 据 增 量 规则 ， 在 第 ” 时 间 步 作用 于 突 触 权 值 的 调节 量 
Azarf(m) 定 义 如 下 : 



































Aaog(p) = Ter(m)o(na) (2.3) 
这 里 ?是 一 个 正 的 常量 ， 它 决定 学 习 过 程 中 从 一 步 到 另 一 步 时 的 学 习 率 。 所 以 ， 我 们 自然 而 
然 地 称 1 为 学 习 率 参数 。 换 言 之 ， 增 量规 则 可 以 表述 为 ; 
作用 于 和 神经 元 突 扔 权 值 的 调节 量 正 比 于 本 次 学 习 中 误差 售 叶 与 突 触 的 输入 信号 的 乘积 。 
牢记 这 里 表述 的 增 量规 则 假定 误差 信号 是 直接 可 测量 的 。 为 了 这 样 的 测量 是 可 行 的 ， 我 
们 显然 需 机 与 神经 元 大 直接 相连 的 外 部 源 提供 期 望 响应 。 换 言 之 ， 神 经 无 上 对 外 部 世界 是 
可 见 的 ， 如 图 2- la 所 示 。 从 该 图 中 还 可 以 夏 到 ， 误 差 - 修正 学 习 实 际 上 带 有 局 部 性 质 。 这 
仪 仅 是 说 由 增 量规 则 计算 的 罕 触 调节 局 部 于 神经 元 上 周围。 
在 计算 突 触 调 节 量 Aws (=*) 后 ， 突 触 权 值 ws 的 更 新 值 由 
gf(T1) = zs(m)+Aas(m) (2.4) 
确定 。 实 际 上 ，xy (n? 和 tag(m+1) 可 以 分 别 被 视 为 突 触 权 值 ww 的 田 值 和 新 值 。 从 计算 的 角 
度 ， 我 们 也 可 写 为 : 
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av(a) = [ww(a+I)] 


这 里 > ”是 单元 ~- 延迟 操作 符 。 也 就 四 说 ，z 表示 一 个 存储 元 件 。 


(2.5) 


图 2-1b 用 信号 流 图 表示 误差 - 修 焉 的 学 习 过 程 ， 其 焦点 集中 在 神经 元 大 周围 的 活动 。 
输入 信号 % 和 神经 元 丰 的 诱导 局 部 域 w 分 别称 作 神 经 元 下 的 第 7 个 突 触 的 前 突 击 信号 和 后 突 
触 信 号 。 从 几 2-1b 看 出 误差 -修正 学 习 是 闭环 反馈 系统 的 一 个 例子 。 由 控制 论 我 们 知道 这 种 
系统 的 秘 定 性 由 构成 系统 的 反馈 环 路 的 参数 决定 。 在 这 里 ， 我 们 仅 有 一 个 单一 反馈 环 路 ， 具 











复学 习 过 程 的 稳定 性 或 





有 特别 龟 义 的 参数 之 一 是 学 习 率 参数 加 因此 ， 仔 细 选 取 # 以 取得 本 
收敛 性 是 很 重要 的 。 对 人 的 选择 对 学 习 过 程 的 准确 性 及 其 他 方面 也 
学 习 率 参数 9 在 实际 决定 误差 - 修正 学 习性 能 时 起 着 关键 作用 。 





1 
1 
1 
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输入 向 是 | ，| 0 
层 或 多 层 
[和 押 丰 讶 芭 二 ams 
| 
| 
1 
多 层 前 针 网 络 


避 神 经 网 络 方 杠 图 ， 仅 结 出 了 输出 及 的 一 个 昼 经 元 


(9 


3 输出 神经 区 信号 流 几 
图 2-! 误差 - 修正 学 习 图 示 


有 深刻 的 影响 。 简 吉之 ， 








误差 - 修正 学 习 将 在 第 3 章 和 第 4 章 详 细 论述 ， 第 3 章 讨论 单 层 前 馈 网 络 ， 第 4 章 详细 





论述 多 层 前 馈 网 络 。 
2.3 ”基于 记忆 的 学 习 


在 基于 记忆 的 学 习 中 ， 所 有 (或 大 部 分 ) 以 往 的 经 验 被 显 式 地 存储 到 让 确 分 类 的 输 和 人 - 输 


出 实例 区 zx , 尼 ?的 大 量 记忆 中 ,这 里 x 表示 答 人 向 景 ，d 表示 


寺 应 的 期 望 响应 。 不 失 一 


般 性 ， 我 们 具 制 期 望 响 应 为 一 个 标量 。 例 如 ， 在 二 值 模式 分 类 中 ， 考 虑 有 两 个 分 别 表 永 为 史 
或 @, 的 类 别 /假设 。 在 这 个 例子 中 ， 期 望 响 应 d 对 类 %, 取 值 0( 或 - 1) ， 对 类 4, 取 值 1。 当 
需要 对 测试 向 量 x。 (以 前 未 见 过 ) 进 行 分 类 时 ， 算 法 通过 提取 并 分 析 xs 的 局 部 邻 域 中 的 训 








练 数 据 进行 响应 。 
所 有 基于 记忆 的 学 习 算 法 包括 两 个 重要 的 组 成 部 分 ; 
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。 用 于 定义 测试 向 量 wx 的 局 部 邻 域 的 准则 。 
*。， 用 于 x。 的 局 部 邻 域 中 的 训练 实例 的 学 习 规 则 。 
算法 随 这 两 个 组 成 部 分 的 不 同 而 不 同 。 
在 一 个 简单 而 有 效 的 称 作 最 近邻 规则 的 基于 记忆 的 学 习 类 型 中 ， 局 部 邻 域 被 定义 为 测 
试问 量 x。 的 直接 邻 域 的 训练 实例 。 特 别 ， 向 量 
到 ER 《2.6) 





被 称 作 xe. 的 最 近邻 ， 如 果 
ming(x xm) = 人 wx) (2.7) 

这 里 ，d(x ,xm) 是 向 量 x 和 xe 的 欧 几 里 德 蝶 离 。 与 最 短 臣 离 相 关联 的 类 别 ， 也 就 是 各 量 
Xw 被 划分 的 类 别 。 这 个 规则 独立 于 产生 训练 实例 的 基本 分 布 。 

Cover ang Tart(1967) 形 式 地 研究 了 作为 一 个 模式 分 类 工具 的 最 近邻 规则 。 在 那里 提出 的 
分 析 基于 两 个 假设 ， 

。 分 类 实例 (x ,d) 按 照 实 例 (x, dg) 的 联合 概率 分 布 是 独立 同 分 布 的 ( 党)。 

。 样本 大 小 w 是 无 限 大 的 。 

在 这 两 个 假设 下 ， 可 以 证 明 ,， 由 最 近邻 规则 引起 的 分 类 误 盖 概率 被 限制 在 贝 叶 斯 误差 概 
率 (也 就 是 所 有 判定 规则 中 的 最 小 误差 概率 ) 的 两 倍 以 上 。 贝 叶 斯 庶 差 慨 率 在 第 3 章 讨 论 。 在 




















这 个 意义 捕 ， 可 以 说 ， 无 限 大 小 的 训练 集中 有 一 半分 类 信息 包含 在 最 近邻 中 ， 这 是 令 人 惊奇 
的 结果 。 
最 近邻 分 类 器 的 一 个 灾 种 是 天- 最 近 鲜 分 类 器 ， 它 操 0 9 
作 如 下 : 0 0 
， 对 于 某 一 整数 4， 确定 与 测试 向 量 x 最 邻近 的 人 ”1 
个 类 别 模式 。 人 00 
。 将 sa 的 天 个 最 近邻 中 出 现 最 多 的 类 别 (假设 om 一 TS 
分 配给 xs( 即 用 多 数 表决 进行 分 类 )。 11 E 
这 样 ，# - 最 近邻 分 类 器 的 作用 就 像 一 个 平均 仪器 。 特 1 
别 的 ， 对 于 大 =3, 大 一 最 近邻 分 类 器 鉴别 单个 的 例外 图 2.2 分 类 的 例外 
(outlier) ， 如 图 2- 2 所 示 :。 一 个 铅 外 是 一 个 观察 ， 这 个 。 虚线 国力 里 面 的 区 域 包括 网 个 属于 分 类 1 
观察 对 于 我 们 感 兴趣 的 指定 异型 是 异常 大 。 的 点 和 一 个 来 自分 类 0 的 例外 。 点 呈 对 
在 第 5 章 我 们 讨论 另 一 个 重要 的 称 作 径 向 基本 数 。 忆 基 大 闪 和 全 人 贡 让 二 人 可 个 
网 络 的 基于 记忆 的 分 类 器 类 型 。 例外 离 得 最 近 





2.4 Hebb 学 习 

学 习 的 Hebb 假设 是 所 有 学 习 规 则 中 最 悠久 最 普 名 的 ; 它 是 为 了 纪念 神经 心理 学 家 Hebb 
(1949) 而 命名 的 。 下 面 一 段 引 自 Hebb 的 《行为 的 组 织 ? 一 书 (1949,p.62): 

当 细 胞 A 的 一 个 灿 突 足够 近 地 刺 激 细胞 B 并 反复 或 持续 地 激励 它 时 。 某 种 增长 过 程 或 


新 陈 代谢 变化 在 一 个 或 两 个 细胞 中 发 生 ， 这 使 得 A 作为 激励 日 的 细胞 中 的 一 个 的 效率 被 增 
大 、 
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Hebb 提出 将 这 个 变化 作为 联想 学 习 的 基础 (在 细胞 水 平 上 )， 其 结果 是 掖 空间 分 布 的 “神经 细 
胞 集合 "的 活动 模式 的 持续 修改 。 

这 个 陈述 是 在 神经 生物 学 的 背景 中 做 出 的 。 我 们 可 以 将 之 扩充 并 重 述 为 二 分 规则 (Stent， 
1973; Changeux and Danchin,1976) : 

1, 如 果 在 突击 (连接 ) 每 一 边 的 两 个 神经 元 被 同时 ( 即 同 步 ) 激 活 ， 那 么 那个 突 触 的 强度 
被 选择 性 地 增强 。 

2. 如 果 在 突 甬 每 一 边 的 两 个 神经 元 被 异步 激活 ， 那 么 那个 突 触 被 选择 性 地 减弱 或 消除 。 

这 样 的 突 触 被 称 作 Hebb 突 触 二 。( 最 初 的 Hehh 规则 不 包括 第 一 部 分 )。 更 确切 地 说 ， 我 
们 定义 Hebhb 罕 触 为 这 样 的 一 个 突 触 ， 它 使 用 一 个 依赖 时 间 的 、 高 度 局 部 的 和 强烈 交互 的 宙 
荐 来 提高 突 触 效率 作为 前 突 触 和 后 突 触 活动 间 的 相互 关系 的 一 个 散 数 。 从 这 个 定义 ， 我 们 可 
以 得 出 下 面 标志 Hebb 突 触 特征 的 4 个 重要 机 制 (特性 ): 

1. 时 间 依 赖 机 制 。 这 一 机 制 是 指 这 样 一 个 事实 ，Hebh 突 触 中 的 修改 取决 于 前 帘 触 和 后 
突 触 信号 出 现 的 确切 时 问 。 

2. 局 部 机 制 。 突 触 在 其 本 质 上 是 传输 的 场所 ， 其 中 信息 - 承载 信号 (表示 了 前 突 触 和 后 
罕 触 单元 中 正在 进行 的 活动 ) 处 于 时 空 的 邻近 。Hebb 突 亢 利用 这 个 局 部 可 用 信息 产生 由 输入 
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确定 的 局 部 突 触 修改 。 

3. 交互 机 制 。Hebh 突 触 中 改变 的 发 生 取决 于 罕 触 两 边 的 信号 。 也 就 是 说 ，Hehh 学 习 的 
方式 ， 在 我 们 无 法 从 这 两 个 活动 中 任意 一 个 自身 作出 预测 的 意义 上 说 ， 是 取决 于 前 罕 触 和 后 
突 触 信号 同 的 “真正 交互 "。 注 意 这 个 依赖 或 交互 串 能 本 质 上 是 确定 性 或 夭 机 性 的 。 

4. 关联 或 相关 机 制 。 对 Hebb 学 习 假 设 的 解释 之 ~ 是 突 触 效率 的 改变 条 件 为 前 后 突 触 信 
号 的 关联 。 于 是 ， 根 据 这 种 解释 ， 前 突 触 和 后 突 触 信号 的 同时 发 生 ( 有 -个 短 的 时 间 间 隔 ) 足 
以 产生 对 突 触 的 修改 。 正 是 出 于 这 个 原 内 ，FHebhb 突 触 又 被 称 作 关联 突 甬 。 在 对 Hebb 学 习 假 
设 的 另 一 种 解释 中 ， 我 们 可 以 从 统计 学 的 角度 考虑 作为 Hebb 突 触 特征 的 交互 机 制 。 特 别 ， 
前 窦 触 和 后 突 般 信号 在 时 间 上 的 相关 被 认为 决定 着 突 触 的 变化 。 所 以 ，Hebb 突 触 也 被 称 作 
相关 突 触 。 相 关 确 实 是 学 习 的 基础 (Eggemmont,1990)。 


突 触 的 增强 和 抑制 


这 里 表述 的 Hebb 突 触 定义 不 包括 那些 可 能 导致 连接 着 一 对 神经 元 的 突 触 减弱 的 附加 过 
程 。 确 实 ， 我 们 可 以 通过 认识 正 相关 活动 导致 突 触 增强 和 非 相关 或 负 相关 活动 导致 突 触 减弱 
来 推广 Hebb 修改 的 概念 (Sient,1973)。 突 触 抑制 也 可 以 是 非 交互 类 型 的 。 特 别 是 ， 突 授 减 弱 
的 交互 条 件 可 能 仅仅 是 前 突 触 或 后 突 触 活 动 的 不 一 致 。 

我 们 更 进一步 ， 将 突 触 修改 分 为 Hebb 式 、 反 - Hebb 式 和 非 - Hebh 式 (Paim,1982)。 按 
照 这 种 划分 ，Hebb 突 触 的 强度 因为 正 相关 的 前 突 触 和 后 突 触 信号 而 增加 ， 以 及 当 信 号 或 者 
是 不 相关 或 者 是 负 相 关 的 而 降低 强度 。 相 反 ， 反 - Hebb 突 触 由 正 相 关 的 前 突 触 和 后 突 触 信 
号 而 减弱 ， 因 负 相 关 的 信 呈 而 增强 。 然 而 ， 在 Hebhb 突 触 和 反 -- Hebb 突 触 两 者 中 ， 对 突 触 效 
率 的 修改 依 各 于 在 本 质 上 是 依赖 时 间 的 、 高 度 局 部 的 和 强烈 交互 的 机 制 。 在 那 种 意义 下 ， 反 
Hebb 突 触 的 性 质 仍 然 是 Hebb 式 的 ， 尽 管 不 是 在 功能 上 。 另 一 方面 ， 非 - Hebb 突 触 不 包含 
Hebb 机 制 中 的 任何 一 种 。 
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Hebb 修改 的 数学 模型 


为 了 从 数学 角度 阐明 Hebb 学 习 ， 和 考虑 神经 元 天 的 -个 突 触 权 值 zw ， 分 智 用 5 和 六 表 
从 前 突 触 和 后 突击 信号 。 在 时 间 步 = 用 于 突 触 权 值 we 的 调整 用 一 般 化 形式 如 下 
Aior(n) = Fe(n) ,am)) (2.8)》 
表示 ， 其 中 玉 (- ，) 嘴 后 突 触 和 前 突 触 信号 的 困 数 。 信 号 几 (n) 和 六 (经 常 被 当做 足 没有 维 
数 的 。 公 式 (2.8) 人 允许 有 多 种 形式 ， 所 有 这 些 形 式 部 称 为 是 Hebb 形式 。 下面， 我 们 考虑 两 种 
这 样 的 形式 。 
Hepb 假设 ”Hebb 学 习 的 最 简单 形式 措 述 为 
Aag(n) = ms(n)a(n) (2.9) 
其 中 ?是 决定 学 习 率 的 正 值 常量 。 式 (2.9) 
清楚 地 强调 了 Hebb 突 触 的 相关 性 质 。 它 Hebb 恨 设 
者 时 被 称 作 活动 产生 规则 。 图 2-3 中 上 方 人 
的 曲线 显示 式 (2.9) 中 改变 重 Auw 随 输 出 全 各 度 - 咱 
信 生 (后 突 触 活动 )y 改变 的 图 形 表示 。 从 倾 侠 度 = (万 - 丈 ) 
这 个 表示 中 ,我 们 看 出 重复 使 用 输入 信号 协 方差 俱 设 
(前 罕 触 活动 ) 凡 将 导致 的 mx 增长 以 及 由 此 平衡 点 。 后 突 触 活动 攻 
引发 的 指数 增长 ， 这 将 使 突击 连接 进 人 饱 7 
和 状态 。 这 时 ， 没 有 任何 信息 存储 在 突 触 
中 并 且 失去 选择 性 。 时 大 抑制 点 
协 方差 假设 ”克服 Hebb 假设 限制 的 
途径 之 一 是 使 用 Sejnowski(1977a,b) 引 人 的 
协 方 差 假设 。 在 这 个 假设 里 ， 式 (2.9) 中 前 图 2-3 Hebh 假设 和 协 方差 假设 的 图 示 
突 触 和 后 突 触 信号 分 别 用 前 罕 触 和 后 突 触 
信号 与 它们 各 自 的 在 一 定时 间 间 隔 上 的 期 彰 均 值 的 偏 移 量 所 代替 。 令 二 和 7 分 别 表示 前 突 触 : 
和 后 突 触 信号 六 的 时 间 - 均值 。 按 照 协 方差 假设 ， 作 用 于 突 触 权 值 xy 的 调整 定义 为 
At = 诬 慷 一 元 )(ye 一 他 ) (2.10) 
中 1 是 学 习 率 参数 。z 和 y 的 均值 构成 前 突 租 和 后 突击 阔 值 ， 它 决定 突 触 修改 的 正 负 值 。 
特别 ， 协 方差 假设 考虑 了 下 述 方面 : 
。 收敛 于 非 平凡 状态 ， 当 z = x 或 力 = 了 时 到 达 。 
。 对 罕 触 加 强 ( 即 增加 突 触 强度 ) 和 突 甬 抑制 ( 即 降低 突 触 强 度 ) 两 者 的 预测 。 
图 2-3 说 明 Hebb 傻 设 和 协 方差 假设 之 则 的 差别 。 在 两 种 情况 下 ，Axy 对 入 的 依赖 是 线 
性 的 ; 然而 ， 在 Hebb 很 设 中 与 y% 轴 的 相交 是 在 原点 ， 耐 在 协 方差 假设 中 是 在 % = y 处 。 
我 们 从 式 (2.10) 得 出 如 下 重要 观察 ; 
1. 如 果 有 足够 的 前 突 触 和 后 突 触 活动 程度 ， 也 就 是 同时 满足 条 件 ”% > 地 和 轴 > 了， 则 突 
击 权 值 xw 得 到 加 强 。 
2. 如 果 至 少 满足 下 条 件 任意 之 一 ， 则 突 触 权 值 被 减弱 : 
，。 在 缺乏 足够 的 后 突击 激活 ( 即 yx <7) 的 条 件 下 前 突 触 激活 ( 即 汶 >z)。 

























一 
































党 习 过 可 39 





， 在 缺乏 足够 的 前 突 触 激活 ( 戎 六 < 天) 的 条 件 下 后 突 触 激活 ( 即 内 > 7 )。 

这 种 行为 可 以 被 认为 是 输入 模式 问 时 间 竞 争 的 一 种 形式 。 

在 称 作 海马 区 的 脑 区 域 提供 了 对 Hebb 学 习 有 力 的 生理 学 证 据 巾 。 海 马 区 在 学 习 或 记忆 
的 某 些 方面 起 着 重要 作用 ， 这 种 生 埋 学 证 撕 使 得 Hebb 学 习 喝 具 吸 引力 。 








2.5 竞争 学 习 
顾名思义 ， 在 竞争 学 习 描 中 ,神经 网 络 中 的 得 出 神经 死 彼此 通过 癌 争 来 成 为 活跃 的 (点 
火 )。 在 基于 Hebb 学 习 的 神经 元 网 络 里 ， 若 干 输出 神经 元 可 能 回 时 处 于 激活 状态 ， 而 在 竞争 
学 习 里 ， 在 任意 时 刻 只 有 一 个 输出 神经 元 是 激活 的 。 正 是 这 个 特性 使 竞争 学 习 高 度 适 合 于 发 
现 统计 上 的 突出 特征 ， 这 些 特征 可 以 用 来 分 类 输 人 模式 的 集合 
对 于 竞争 学 习 规则 ， 有 一 个 基本 元 素 (Rumeihart and Zipser， 1985): 
* 一 个 神经 元 集合 ， 这些 神 经 元 除了 一 些 随 机 分 布 的 突 触 权 值 之 外 是 完全 相 网 的 ， 并 
且 由 于 突 触 权 值 的 木 同 而 对 一 个 给 定 的 输入 模式 集合 有 不 同 的 响应 。 
。 对 每 个 神经 元 的 强度 加 上 的 限制 。 
， 区 许 神 经 元 为 咯 应 一 个 给 定 输 人 子 集 的 权利 而 竞争 的 机 制 ， 从 而 使 得 每 次 只 有 一 
输出 神经 元 或 者 每 组 只 有 一 个 神经 元 是 激 落 的 ( 即 “ 开 ”)。 竞 争 获 胜 神经 元 被 称 为 胜 
者 全 得 (winnertakes-al) 神 经 元 。 



































类 别 输入 模式 的 特征 探测 器 。 
在 最 简单 的 竞争 学 习 形 式 中 ,神经 网 络 有 单一 的 一 层 如 
输出 神经 元 ， 其 中 的 每 一 个 都 与 输 人 节点 完全 连接 。 网 络 
可 以 包含 神经 元 的 反馈 连接 .如 图 2-4 所 示 。 在 这 里 描绘 如 
的 网 络 结构 中 ， 反 馈 连 接 执行 侧 向 抑制 上 四， 每 个 神经 元 都 
试图 抑制 与 其 便 向 连接 的 神经 元 相反， 图 2-4 的 网 络 结 名 
构 中 的 所 有 前 馈 突 触 连接 者 是 激活 的 (兴奋 的 ) 。 
对 于 一 个 划 想 成 为 获 上 性 神经 元 的 神经 元 站 ， 对 于 指定 局 
和 输入 模式 x 的 诱导 局 部 域 w 必需 是 网 络 结构 中 所 有 神经 源 节 点 层 。 单 层 输出 神经 元 
元 中 最 大 的 。 获 胜 神经 元 上 的 输出 信号 六 被 置 为 1， 竞争。 图 2-4 个 简单 竞争 学 习 网 络 
从 点 
失败 的 所 有 神经 元 的 输出 信号 被 冒 为 0。 这样 ， 我 们 有 的 全 的 村 全 有 下 训 到 
加 人 如 果 mm > 瞻 对 于 所 有 7 了 闪 有 (2 11) 。 元 之 间 的 出 向 (抑制 的 ) 连 接 (全 向 
0， 否则 连接 由 空心 笠 头 标示 出 ) 
其 中 ， 诱 导 局 部 域 wx 表示 结合 所 有 到 达 神 经 元 下 的 前 向 
和 反馈 输入 的 动作 。 
令 几 表 示 连 接 输入 节点 7 到 神经 元 左 的 突 甬 权 值 。 假 定 每 个 神经 元 被 分 配 (aliotted) 国 咱 
量 的 突 触 权 值 ( 即 所 有 突 触 权 值 都 是 正 的 )， 权 值 分 布 在 它 的 输 人 节点 之 中 ; 也 就 是 
Yo = 1， 对 于 所 有 大 《2.12》 


然后 神经 元 通过 将 突 伏 权 值 从 它 的 不 活 肥 答 入 移 向 活路 答 入 米 进行 学 习 。 刀 果 钊 经 元 对 一 个 
特定 输入 模式 不 响应 ， 那 么 没有 学 习 发 生 在 那个 神经 元 上 。 如 果 一 个 特定 神经 元 赢得 了 竞 












































此 ， 网 络 的 神经 元 个 体 学 会 专门 礁 别 相 他 模 式 的 总 体 ;这样 做 的 结果 ， 它 们 成 为 不 同 “ 马 ] 








园 


320 四 型 ?更 





争 ， 这 个 神经 元 的 每 个 输 和 人 节点 以 一 定 比 例 释放 它 的 突 触 权 值 ， 释 放 的 权 值 然 后 平 光 分布 到 
活 牙 输入 节点 上 。 按 照 标准 的 竞争 学 习 规 则 ， 作 用 于 宽 触 权 值 ww 的 改变 量 A 霹 定义 为 
A - 节 - ay) ,如 果 神 经 元 不 亮 争 成 功 
本 0 ,如 果 神 经 元 大 竞 争 失败 
其 中 是 学 习 率 参数 。 这 个 规则 具有 将 获胜 神经 元 丰 的 突 触 权 值 向 量 ws 向 输 人 模式 x 移动 
的 整体 效果 。 

我 们 可 以 使 用 图 2-5 中 描绘 的 儿 何 类 比 来 说 明 竞 争 学 习 的 本 质 (Rumelhart and Zipser， 
1985)。 假 定 每 个 输入 模式 (向 量 )x 只有 其 一 常量 欧 几 里 德 长 记 , 使 得 我 们 可 以 将 它 看 作 是 
凡 一 维 单位 球 上 的 - -个 点 ， 其 中 N 是 输 和 人 节点 的 数 和 月 。W 也 表示 每 个 突 触 权 值 商量 w, 的 维 
数 。 进 - 步 假定 网 络 中 所 由 神经 元 都 被 限定 上 共有 相等 的 欧 几 里 德 长 度 ( 范 数 ) ， 表 示 如 下 ， 
= 于 对 所 有 天 (2.14) 


当 突 触 权 值 被 适当 设 定 ， 它 们 就 成 为 落 人 同  w - 维 单位 球 的 一 组 向 量 。 在 图 2.5a 中 我 们 
显示 了 三 个 用 点 表示 的 刺激 模式 的 自然 分 组 ( 艇 )。 这 个 图 也 包括 一 个 可 能 的 网 络 初 始 状态 (用 
又 表示 )， 它 可 能 存在 于 学 习 之 前 。 网 2- 53b 显示 网 络 作为 使 用 竞争 学 习 结果 的 一 个 典 更 的 终止 
状态 。 特 别 ， 每 个 输 人 神经 元 通过 将 其 突 触 权 值 移 向 能 的 重心 而 发 现 这 以 输入 模式 的 馆 
《Ramelhart and Zipser,1985; Herz et al.,1991)。 这 个 周 说 明了 神经 网 络 通 过 竞争 学 习 进行 聚 类 的 
能 力 。 然 而 ， 为 了 这 一 功能 能 以 “稳定 的 "方式 执行 ， 开 始 时 输 和 人 模式 必需 落 人 充分 分 离 的 分 组 
中 。 和 否则， 网 络 可 能 不 稳定 ， 因 为 它 将 不 衣 以 同样 的 输出 神经 元 响应 给 定 的 输 人 模式 。 





(2.13) 
























































图 2- 5 竞争 学 习 过 程 的 几何 解释 ， 点 代表 输入 向 量 ， 
又 代表 3 个 输出 神经 元 的 突 触 权 值 向 量 
下 网 络 的 初始 状态 ”b 网 络 的 终止 状态 


2.6 Boltzmann 学 习 


为 了 纪念 Dadwig Boltzmann 而 命名 的 Boltanann 学 习 规则 是 一 个 从 植 根 于 统计 力学 中 的 思 
想 推导 得 出 的 随机 学 习 算法 ”。 基 于 Boltmnann 学 习 规 则 设计 的 神经 元 网 络 称 作 Boitzamann 机 
《Ackley et al, ,1985;Hinton and Sejnowski; 1986)。 

在 Boltzanann 负 中 ， 神 经 元 构成 递归 结构 ， 并 以 二 值 方式 运作 ， 因 为 ， 例 如 它们 要 公 处 
于 用 + 1 表示 的 " 开 " 状 态 ， 要 人 么 处 于 用 - ] 表示 的 " 关 " 状 态 。Bolizamann 机 由 能 量 函 数 站 所 表 
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征 ， 能 基 冰 数 的 值 由 机 器 的 个 体 神经 元 目 据 的 特定 状态 所 决定 。 才 示 成 
有 = -了 中 or (2.15) 
了 
其 中 z 是 神经 元 7 的 状态 ，w 是 连接 神经 元; 到 神经 元 丰 的 突 触 权 值 。/ 关 大 的 事实 仪 仅 意味 
着 机 器 中 设 有 一 个 神经 元 有 白 反 馈 - 机 器 的 运作 足 道 过 在 学 习 过 程 其 一 步 随机 地 选择 一 个 神 
经 元 (例如 神经 元 站 ,然后 在 其 一 过 度 了 以 概率 





Pr 一 《2.16) 


2) 工 + 二 CAET7T7 
将 神经 元 大 从 状态 六 反 转 到 状态 - 交 ， 其 中 人 如 是 由 这 样 的 反 转 所 导致 的 能 量 改 变 ( 即 机 器 
能 量 函 数 的 改变 量 )。 注 意 ，7 并 非 是 物 埋 温度 ， 而 是 第 1 章 解 释 的 擅 温 度 。 如 这 一 规则 被 
反复 使 用 ， 机 器 将 达到 热平衡 。 

Boltzmann 机 的 神经 部 分 为 两 类 功能 组 : 可 见 的 和 隐藏 的 。 可 见 的 神经 元 提供 网 络 和 它 
在 其 中 运作 的 环境 问 的 接口 ， 谷 隐藏 神经 元 总 是 自由 运作 。 有 两 种 运作 模式 要 加 以 考虑 ; 

” 钳制 条 件 ， 在 这 种 情形 下 可 见 神经 元 都 被 钳制 到 由 环境 决定 的 特定 状态 。 

。 自由 过 行 条 件 ， 在 这 种 情形 下 所 有 神经 元 (可 见 的 和 隐藏 的 ) 孝 允许 自由 运作 . 

令 大 表 示 网 络 在 其 错 制 条 件 下 神经 元 | 和 上 的 状态 间 的 相关 量 。 令 of 表示 网 络 在 其 白 
由 运作 条 件 下 神经 邱 7 和 上 的 状态 间 的 相关 量 。 两 种 相关 量 都 是 当 机 器 处 于 热平衡 时 的 所 有 
可 能 状态 的 平均 。 然 后 ， 根 据 Boltzmann 学 习 规 则 ， 作 用 于 从 神经 元 到 神经 元 大 的 突 触 权 
值 的 改变 量 由 














Ai = 凡 风 后)， 了 了 天 (2.17) 
定义 (Hinton and Sejnowski,1986)， 其 中 站 是 学 习 率 参数 。 注 意 地利 of 的 值 都 在 -1 和 +1 范 
围 内 。 
第 11 章 给 出 对 统计 力学 的 简单 局 顾 ; 在 都 一 章 ， 我 们 还 鉴 洋 尽 讨论 Bolzmann 机 和 其 他 
随机 机 需 。 


2.7 ”信任 赋值 问题 


当 研 究 用 于 分 布 式 系统 的 学 习 算法 时 ， 考 虑 信任 赋值 (credit assignment) ，(Minsky,1961) 
的 问题 是 有 益处 的 。 基 本 上， 信件 赋值 问题 站 将 导 敏 整体 输出 的 信任 和 责任 分 配给 每 一 个 由 
学 习 机 器 作出 的 内 部 决策 及 那些 对 蛛 体 输出 起 作用 的 决策 的 问题 。( 信 任 赋值 问题 也 被 称 作 
装载 问题 ， 即 将 一 组 给 定 的 训练 数据 “装载 "给 网 络 的 自由 参数 。) 

在 很 多 情形 下 ， 和 输出 对 内 部 决策 的 依赖 由 学 习 机 器 采取 的 一 系列 动作 所 调节 。 换 句 话 
说 ， 内 部 决策 影响 采取 嘟 些 动作 ， 然 后 这 些 动作 而 不 是 内 部 决策 让 接 影响 整体 输出 。 在 这 种 
情形 下 ， 我 们 可 将 信任 赋值 问题 分 解 为 两 个 子 问题 (Sutton,1984》: 

1. 对 输出 到 动作 的 信任 赋值 。 这 被 称 为 时 间 信 任 赋 值 (temporal credit-assigament) 问题 ， 
因为 它 涉及 应 获得 信任 的 动作 被 实际 采取 的 时 刻 。 

2. 对 动作 到 内 部 决策 的 信任 赋值 。 这 被 称 为 结构 信任 赋值 (structural credit-assignment) 问 
题 ， 因 为 它 涉及 对 系统 生成 动作 的 内 部 结构 进行 信任 赋值 。 

在 多 成 分 学 习 机 器 中 ， 当 为 了 提高 整个 系统 的 性 能 我 们 必须 精确 判定 系统 的 娜 个 特定 成 
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分 应 该 改变 它 的 行为 及 作 何等 程度 的 改变 时 ， 这 是 和 结构 信任 赋值 问题 相关 的 。 妇 一 方面 
当 学 习 机 器 采取 很 多 动作 而 导致 某 些 输出 并 卫 我 们 必须 判定 这 些 动作 中 有 哪些 应 对 输出 负责 
时 ， 这 大 和 时 间 信 任 同 值 问题 相关 的 。 时 间 和 结构 信任 赋值 相 结 合 的 问题 对 于 任何 试图 在 涉 
及 时 间 扩 展 行为 的 情况 下 提高 其 性 能 的 分 布 式 学 习 系统 来 说 都 是 存在 的 (Wiliams, I988 ) 。 
例如 ， 当 误差 - 修正 学 习 被 用 于 多 层 前 锁 神经 元 网 络 时 ， 信 任 赋值 问题 就 出 现 了 。 在 这 
样 的 网 络 里 ， 每 个 隐 神 经 元 的 运作 像 每 个 输出 神经 元 的 运作 一 翌 ， 对 于 网 络 在 一 个 感 兴趣 的 
学 习 任 务 芋 正确 的 整体 运作 都 是 重要 的 。 也 就 是 说 ， 为 了 解决 所 规定 的 任务 ， 网 络 必须 通过 
误差 - 修正 学 习 的 规范 给 它 的 神经 元 赋予 一 定 的 行为 方式 。 在 这 种 背景 下 ， 考 虑 图 2- la 撒 
述 的 情形 。 出 于 输出 神经 元 上 对 外 界 是 可 见 的， 就 吉 能 给 这 个 神经 元 提供 一 个 期 望 响应 。 
就 输出 神经 元 而 言 ， 根 据 误差 - 修正 学 习 来 调节 和 输出 神经 元 的 突 角 反 值 是 一 件 轻而易举 的 事 
情 ， 正 如 2,.2 节 所 概括 的 那样 -但 是 当 澡 盖 - 修正 学 习 过 程 用 于 油 节 隐藏 神 经 元 的 每 个 突 触 
权 值 时 ， 我 们 如 何 对 这 些 神经 元 动作 的 信任 或 责任 赋值 呢 》 对 于 这 个 基本 问题 的 回答 需要 更 















.名 】 详尽 的 考虑 ; 它 在 第 4 章 给 出 ， 那 里 撒 述 了 设计 多 导 前 馈 神经 网 络 的 算法 绍 节 


2.8 有 教师 学 习 





















































现在 让 我 们 把 注意 力 转向 学 习 范 例 。 我 们 首先 讨论 有 教师 学 习 ， 也 栋 为 有 监督 学 习 。 图 
2-6 说 明 这 种 学 习 方 式 的 方 框图 。 从 概念 上 讲 ， 我 们 可 以 认为 教师 具 丰 对 周围 环境 的 知识 
(这 种 类 型 的 知识 的 形式 就 是 一 系列 的 输入 - 输出 事例 ) 。 然 而 感 兴趣 的 神经 网 络 对 这 种 环境 
一 无 所 知 。 现 在 我 们 假设 教师 和 神经 网 措 述 环境 状 
络 同时 要 对 从 周围 环境 中 抽取 出 来 的 训 5 
练 向 量 ( 即 例子 ) 作 出 判断 ， 教 师 可 以 根 
据 自身 掌握 的 一 些 知识 为 神经 网 络 提供 
对 训练 样本 的 期 肩 响应。 期望 响应 一 般 期 强 员 应 
都 代 表 着 神经 网 络 完成 的 最 优 动作 。 神 / 
经 网 络 的 参数 可 以 在 训练 向 量 和 误差 信 | 
蕊 的 综合 影响 下 进行 调整 。 误 差 信号 可 让 一 
以 定义 为 神经 网 络 实际 响应 与 预期 响应 
之 差 。 这 种 调整 可 以 逐步 而 又 反复 地 进 

误差 信号 


行 ， 其 最 终日 的 就 是 要 让 神经 网 络 异 拟 
教师 ， 在 某 种 统计 的 意义 下 ， 可 以 认为 图 ?2-6 有 教师 学 习 旋 低 图 
这 种 模拟 是 最 优 的 。 利 用 这 种 手段 ， 教 师 对 环境 掌握 的 知识 就 可 以 由 训练 最 大 限度 地 传授 给 宰 
经 网 络 。 当 条 件 成 熟 的 时 候 ， 就 可 以 将 教师 排除 在 外 ， 让 神经 网 络 完全 自主 地 应 对 环境 。 

我 们 刚刚 描述 的 有 监督 学 习 就 是 前 面 2.2 节 讨 论 的 误差 - 修正 学 习 方 法 。 它 是 一 种 闭环 
皮 馈 系统 ， 但 未 知 的 环境 不 包含 在 循环 中 。 我 们 可 以 采用 训练 样本 的 均 方 误差 或 平方 误 益 和 
作为 住 能 测试 手 眉 ， 它 可 以 定义 为 系统 的 - -个 带 自由 参数 的 晒 数 。 该 函数 可 以 看 作 一 个 多 维 
误差 -性 能 曲面 ， 或 者 简称 误差 曲面 ， 其 中 自由 参数 作为 坐标 轴 。 实 际 误差 曲目 是 所 有 可 能 
的 输出 输入 的 平均 。 任 何 一 个 在 教师 监督 下 的 系统 给 定 操作 部 表示 误 益 面 上 的 一 个 点 。 该 系 
统 要 随时 间 提高 性 能 ， 就 必须 向 教师 学 习 ， 操 作 点 必须 要 向 善 误差 曲面 的 最 小 点 逐渐 下 降 ， 
误差 极 小 点 可 能 是 局 部 最 小 ， 也 可 能 是 全 部 点 中 的 最 小 。 有 指导 学 习 系统 能 够 处 理 这 些 有 用 





























党纪 过 准 全 

















信息 ， 它 可 以 根据 系统 当前 的 行为 计算 出 溃 差 曲面 的 梯度 。 误 差 曲面 上 任何 一 点 的 梯度 指 的 
是 指 问 最速 下 降 方 向 的 向 量 。 实 际 上 ， 在 向 例子 进行 有 监督 学 习 的 情况 下 ， 系 统 可 以 采用 梯 
度 向 量 皮 时 估计 ， 这 时 假如 将 例子 的 标号 约定 为 访问 的 时 间 。 采 取 这 种 估计 一 般 会 导致 在 误 
盖 曲 面 上 操作 点 的 运动 轨迹 经 常 以 “随机 漫游 "的 形式 出 现 ， 然 而 ， 如 华 我 们 能 给 定 - -个 设计 
好 的 算法 来 使 代价 函数 最 小 ， 而 月 有 足够 的 输入 /输出 的 数据 集 和 充裕 的 训练 时 间 ， 那 么 有 
指导 学 习 系 统 往往 可 以 较 好 地 完成 诸如 模式 分 类 、 函 数 逼 近 之 类 的 任务 。 


2.9 无 教师 学 习 


在 有 监督 学 习 系 统 中 ， 学 习 过 程 是 在 教师 的 监督 下 进行 的 。 然 而 ， 在 无 教师 学 习 范 例 
中 ,正如 它 的 名 字 暗 示 的 那样 没有 教师 监视 学习 过 程 。 也 就 是 说 ， 神 经 网 络 没有 任何 带 标号 
的 例子 可 以 学 习 。 第 二 种 学 习 范 例 ( 励 监督 学 习 ) 又 分 为 两 类 : 增强 式 学 习 / 神 经 动态 规划 和 
无 监督 学 习 。 
1. 增强 式 学 习 / 神 经 动态 规划 


在 增强 式 学 习 (reinforement leaming) 跨 中， 输入 输出 映射 的 学 习 是 通过 与 环境 的 不 断交 
所 来 完成 的 ， 目 的 是 使 一 个 标量 狂 能 指标 达到 最 小 。 图 2.7 显示 的 是 增强 式 学 习 的 方 框图 。 
这 种 学 习 系统 建立 在 一 个 评价 的 基础 上 ， 评 价 将 从 周 周 环境 中 接收 到 的 原始 增强 信号 转换 成 
一 种 称 为 启迪 增强 信号 的 高 质 旺 的 增强 信号 ,两 朝 都 是 标量 输入 ( Baro et al, ,1983) .设计 
该 系统 的 目的 是 为 了 适应 延迟 增强 情况 原 绝 
下 的 学 习 ， 即 意味 着 系统 观 符 从 环境 接 状态 (给 和 ) | 人 
收 的 一 个 时 序 刺激 ( 即 状 态 向 基 )， 它 们 让 灶 
最 终 产生 启发 式 的 增强 信 叶 。 学 习 的 日 
标 是 将 cosFto- 即 函数 最 小 化 ，cost-to-go 
函数 定义 为 采取 一 系 甸 扎 又 的 动作 代价 
的 累积 期 望 值 ， 而 不 是 简单 的 直接 代 
价 。 可 以 证 明 ， 在 时 间 序列 上 早期 采取 
的 动作 事实 上 是 整个 系统 最 好 的 决定 。 
学 习 机 的 功能 ( 它 构 成 了 系统 的 第 二 个 
组 件 ) 就 是 用 来 发 现 这 些 动作 并 将 它们 
向 环境 反馈 。 

延迟 增强 式 学 习 系 统 很 难 在 实际 上 运用 ， 基 本 原因 有 一 ， 

。 在 学 习 过 程 中 的 每 个 步骤 ， 没 有 教师 提供 一 个 期 望 的 响应 。 

。 延迟 会 导致 原始 增强 信号 ， 这 意味 着 学 习 机 必须 解决 时 间 信 任 冉 值 问题 。 也 就 是 赔 ， 

对 将 导 臻 最 终结 果 的 时 间 序列 步 中 的 每 一 个 动作 ， 学 习 机 必须 各 髓 独立 地 对 信任 和 
责任 赋 舍 而 原始 增强 可 能 仅 评价 最 终结 果 。 

尽管 存在 这 些 困难 ， 延 迟 拉 强 学习 还 是 非常 有 吸引 旋 的 。 它 提供 系统 与 周围 环境 交 下 的 基 
碰 ， 因 此 可 以 仅仅 在 这 种 与 环境 交互 获得 经 验 结 旷 的 基础 上 ， 发 展 学 习 完成 指定 任务 的 能 力 。 
增强 式 学 习 和 Bellman(1957) 在 最 优 控制 理论 背景 下 提出 的 动态 规划 密切 相关 。 动 态 规 
划 提 供 作出 系列 决策 的 数学 形式 。 将 增强 式 学 习 放 在 动态 规划 的 框架 中 ， 主 题 就 更 加 让 富 


















































图 2-7 增强 式 学 习 方 框图 





















































4A4 朝 2 导 





这 一 点 在 Bersekas and Tisikls( 1996) 中 作 了 玫 述 。 动 态 规 划 的 介绍 以 及 它 与 增强 式 学 习 的 关 
系 将 在 第 12 章 讨 论 。 
2. 无 监督 学 习 

如 图 2-8 所 天， 在 无 瘟 督 成 自 组 织 学 习 系统 中 ， 没 有 外 部 的 教师 或 者 评价 米 监 督学 习 的 
过 程 。 提 供 独立 于 任务 的 表示 性 质 的 度量， 要 求 网 络 学 习 该 度量 而 且 自 由 参数 将 根据 这 个 度 
量 米 逐 步 优化 网 络 。 一 卫 神 经 网 络 能 够 与 输入 数据 的 统计 任 特征 相 一 委 ， 那 么 它 将 发 展 形成 
用 于 输入 数据 缩 但 竺 征 的 内 部 示 的 能 力 ， 从 而 自动 六 过 下 坟 关 
创造 新 的 类 别 (Becker,1991)。 鸯 FE 本 
为 了 完成 无 监督 学 习 ， 我 们 可 以 使 用 竞争 性 学 习 
志 则 ， 例 如 ， 神 经 网 络 可 能 包括 两 层 ; 输入 层 利克 争 
层 。 输 入 层 接 受 有 用 的 数据 。 竞 争 导 由 相互 区 争 (根据 
一 定 的 学 习 规 则 ) 的 神经 元 组 成 ， 它 们 力图 获得 响应 包含 在 输入 数据 中 的 竺 征 的 “机 会 "。 县 
简单 的 形式 就 是 神经 网 络 采用 *“ 胜 者 全 得 "的 策略 。 正 如 2.5 节 所 述 。 在 这 种 策略 中 共有 最 人 
总 输入 的 神经 元 赢得 竞争 而 被 激活 ， 其 他 所 有 的 神经 元 被 关 掉 。 

在 第 8 章 到 第 11 章 将 讨论 无 监督 党 习 的 不 同 算法 。 


2.10 学 习 任务 

本 章 前 面 凡 节 讨 论 了 不 同 的 学 习 算法 和 学 习 范 例 。 在 本 节 中 ,我 们 将 描述 一 些 基本 的 学 
习 任 务 。 选 定 一 个 特定 的 学 习 算 法 与 神经 网 络 需 要 完成 的 学 习 任 务 密 切 相 关 。 在 这 种 背景 
下 ， 我 们 将 根据 不 同 的 形式 分 别 比 较 神 经 网 络 的 六 种 不 同 的 学 习 任 务 。 


模式 联想 


联想 记忆 是 与 大 脑 相似 的 依靠 联想 学 习 的 分 布 式 记忆 。 自 从 亚 里 土 多 德 时 代 起 ， 兢 想 就 
被 认 作 是 人 脑 的 一 个 显著 特征 ， 而 且 认 知 的 所 有 模式 都 以 这 种 或 那 种 形式 使 用 联想 作为 基本 
的 行为 (Anderson,1995) 。 

联想 有 两 种 形式 : 自 联 想 与 异 联想 。 自 联想 方式 当 存 储 一 系列 的 模式 (向 量 ) 时 神经 网 络 
要 求 不 断 地 将 它们 呈现 给 网 络 。 其 后 将 已 存 模式 的 部 分 描述 或 畸变 (品目 ) 形 式 呈现 给 网 络 ， 
而 网 络 的 任务 就 是 检索 (回忆 ) 存 储 的 该 特定 模式 。 异 联想 与 自 联 想 的 不 同 之 处 就 在 于 一 个 任 
意 的 输入 模式 集合 与 另 ， 个 输出 模式 集合 配对 。 自 联想 需要 使 用 无 监督 学 习 方式 ， 而 异 联 起 
采用 监督 学 习 方式 。 

设 xx 表示 在 联想 记忆 中 的 关键 模式 (向 量 ) 而 ge 表示 存储 模式 (向 量 )。 网 络 完成 的 模式 
联想 册 




















图 2-8 无 监督 学 习 方 框图 













































































Xu 一 y 下 = 1,2，,9 (2.18) 
表示 ， 其 中 9 是 存储 在 网 络 中 的 模式 数 。 关 键 模 式 % 作为 输入 ， 不 仅 决定 仔 储 模式 y, 的 存 
依 位 置 ， 同 时 也 拥有 检索 该 模式 的 键 码 - 
在 自 联 想 记忆 模式 中 : xs = ye ， 所 以 输入 输出 数据 的 空间 维 数 相同 。 在 异 联想 记忆 模式 
: 了 双关 i 因此 ， 第 二 种 情况 的 输出 空间 维 数 可 能 与 输入 数据 空间 维 数 相同 ， 也 可 能 不 同 。 




















联想 记忆 模式 的 操作 一 般 包括 两 个 阶段 ; 
， 存储 阶段 ， 指 的 是 根据 式 (2.18) 对 网 络 进行 训练 。 
， 回忆 阶段 ， 网 络 根据 所 呈现 的 有 噪声 的 或 畸变 的 关键 模式 检索 对 应 的 存储 模式 。 














令 币 激 ( 输 入 )x 表示 关键 模 式 % 的 有 噪声 或 畸 变形 式 。 如 图 2-9 所 示 ， 这 个 刺激 产生 响 
点 ( 输 田 )y。 作 为 完整 的 回忆 ， 我 们 将 发 现 y=y， 输入 向 量 输出 沿 量 








其 中 y 为 出 关键 模式 x 联想 的 记忆 模式 。 如 果 对 Emma 识 式 了 所 
x=xX 有 ?zy ， 就 说 联想 记忆 有 回 亿 错误 。 
联想 记忆 中 存储 的 模式 数目 4 提供 网 络 存储 
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图 2- 9 模式 联想 输入 输出 关系 网 


能 力 的 一 个 直接 度 基 。 在 设计 联想 记忆 时 ， 装 题 就 是 使 存储 能 力 g( 表 示 为 与 构建 网 络 的 神 


经 元 总 数 w 的 百分比 ) 尽 量 大 ， 并 


模式 识别 


和 类 非常 搜 长 模式 识别 通过 感官 ， 我 们 可 以 从 周转 的 1 
出 数据 源 。 我 们 往往 是 瞬间 完成 ， 儿 乎 毫 不 柴 力 。 例 如 ， 
脸 ， 即 使 我 们 和 这 个 人 已 经 多 年 未 曾 谋面 。 无 论 电 话 线路 如 














志保 持 记 忆 中 的 大 部 分 模式 能 正确 回忆 。 








世界 接受 到 数据 ， 并 且 可 以 识别 
我 们 能 够 识别 出 任何 一 张 熟 悉 的 
阿 差劲 ， 我 们 述 是 可 以 迅速 地 根 


据 他 或 者 好 的 声音 很 快 地 衷 别 出 你 的 熟人 。 仅 仅 闻 -- 下 ， 就 能 分 状 出 一 个 煮 鸡 蛋 是 否 变 坏 。 
人 类 是 通过 学 习 过 程 来 成 功 地 实现 模式 识别 的 ， 神 经 网 络 也 是 如 此 。 

模式 识别 被 形式 地 定义 为 一 个 过 程 ， 由 这 个 过 程 将 接收 的 模式 或 信 身 依 定 为 一 些 指定 类 
经 网 络 要 实现 模式 识别 需要 先 经 过 一 个 训练 的 过 程 ， 在 此 过 程 中 
网 络 需要 不 断 地 接受 - .个 模式 集合 以 及 每 个 特定 模式 所 属 的 类 别 ; 然 后， 把 一 个 以 前 没有 昂 


《类 别 ) 中 的 一 个 类 。 一 个 衬 











过 但 属于 用 于 训练 网 络 的 同 





个 模式 可 以 表示 成 为 多 维 坟 
一 个 模式 类 。 判 定 边界 由 训 


决定 。 我 们 可 以 根据 各 个 模式 类 内 





部 以 及 它们 之 间 固 有 可 变性 用 统计 


方式 确定 边界 。 
一 般 而 论 ， 采 用 神经 








式 识别 机 分 为 如 下 两 种 形式 : 
。 如 图 2-10a 所 示 ， 识 别 机 分 
为 两 部 分 ， 用 来 作 特征 抽取 
的 无 监督 网 络 和 作 分 类 的 监 
锁 网 络 ， 这 种 方法 遵循 传统 








模式 总 体 的 新 模式 呈现 给 神经 网 络 。 神 经 
数据 中 提取 的 信息 识别 特定 模式 的 类 别 。 神 经 网 络 的 模式 识 划 本质 上 是 基于 统计 特 | 





的 统计 特 性 模式 识别 方法 
【Duda and Hart ,1973;Fukunaga ， 
1990)。 用 概念 术语 来 表示 ， 
一 个 模式 是 一 个 mm 维 的 可 
观测 的 数据 ， 即 mm 维 观测 








网 络 可 以 根据 从 训练 


性 的 , 各 

















bB 


图 2-10 模式 分 类 的 经 典 分 类 方法 图 解 


定 空 间 的 一 些 点 。 判 定 空间 被 划分 为 不 同 的 区 域 ， 每 个 区 域 对 应 
1 练 过 程 特征 向量 | Fol 
输入 模式 用 于 特征 抽取 |， 》 A| 用 于 分 类 | 2 
机 的 无 监督 网 络 的 监督 网 络 
上 一 所 了 
) 
络 的 模 ” 
分 类 
特征 摘 取 
m- 维 观 察 空 间 人 -维特 征 空间 广 维 判定 空间 


[@ 
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(数据 ) 空 间 集中 的 一 个 点 x。 如 图 2- 10b 所 示 ， 特 征 媳 取 摘 述 为 一 个 变换 ， 它 将 点 x 
映射 成 一 个 4 维特 征 空间 村 对 应 的 中 间 点 y(9 < 四 )。 这 种 变换 可 看 作 是 维 数 缩减 
( 即 ， 数 据 斥 缩 )， 这 种 做 法 主要 是 基 十 简化 分 类 任务 的 考虑 。 分 类 本 身 可 撒 述 为 -- 
个 变换 ， 它 将 中 间 点 了 遇 射 为 > 维 判 定 空间 上 的 一 个 类 ， 其 中 是 要 区 分 的 类 别 数 。 
。 识别 人 设计 成 一 个 采用 监督 学 习 算法 的 多 层 前 钙 网 络 。 在 这 第 二 个 方法 中 ， 特 征 抽 
取 由 网 络 隐藏 层 中 的 计算 单元 执行 。 
实际 应 用 中 到 广 采 用 两 个 方法 中 的 哪 一 个 方法 ， 取 决 于 实际 应 用 的 车 腿 点 。 
函数 逼近 
第 二 个 学 习 任务 是 盟 数 角 近 。 考 虑 由 函数 关系 
d= fx) (2.19) 
滴 述 的 一 个 非 线 狂 输 和 人 笨 出 隐 射 ， 其 中 向 七 x 昆 输 入， 向 量 d 为 和 输 出。 向量 值 归 数 尺 ,) 假 定 
为 未 知 。 为 了 弥补 函数 K,) 知 识 的 缺乏 ， 我 们 假定 有 如 下 的 训练 样 例 集 会 : 
了 = 1 有) (2.20) 
我 们 的 要 求 是 设计 一 个 神经 网 络 来 允 近 未 知 晒 数 尺 *)， 使 由 网 络 实际 实现 的 措 述 输 入 - 输 
出 映射 的 函数 F(' ) 在 欧 几 里 德 距离 的 意义 下 与 代 ,) 足 够 接近 ， 即 
1FCOD - Kx) 1 < e, 对 于 所 有 的 x (2.21) 
中 # 是 一 个 很 小 的 正 数 。 假 定 训练 集 伴 本 数 日 W 足够 大 ， 神 经 网 络 也 有 适当 数 口 的 白 由 
参数 ， 堵 么 对 于 特定 的 任务 通 近 误差 s 应 当 是 足够 的 小 。 
在 这 里 ， 通 近 问题 其 实 是 一 个 很 完整 的 监督 学 习 ， 其 中 x 足 输 入 向 量 ， 而 d 是 期 望 的 
响应 。 我 们 可 以 换 一 个 角度 思考 这 种 问题 ， 将 监督 学 习 看 成 尾 一 个 逼近 问题 。 
神经 网 络 逼 近 一 个 未 知 输入 - 输出 映射 的 能 力 林 以 从 两 个 重要 途径 利用 : 
。 系统 辩 识 。 假 定式 (2.19) 措 述 的 足 一 a 
个 林 知 的 无 记忆 的 多 输入 - 多 输出 FF 划 才 
《multiple input-multiple cutput， MIMO ) 
系统 的 输入 输出 关系 ; 所 亩 “天 记 忆 ” 
系统 ， 我 们 指 的 是 时 间 不 变性 的 系 
统 。 然 后 我 们 利用 在 式 (2.20) 中 的 标 
定 的 例子 集合 将 神经 网 络 训练 为 系统 
的 一 个 模型 。 假 定 Y ， 表 示 神 经 网 络 
中 对 输入 向 量 x, 产生 的 相应 输出 。 
正如 图 2-11 所 描绘 ，d ( 与 x 相对 
应 ) 与 输出 ， 之 生产 后 一 个 误 益 信 图 ?1 系统 识别 方 柜 图 
导 。 ， 这 个 误差 信和 号 接着 用 来 调节 网 络 的 自 册 和 参数， 最 终 使 未 知 系统 的 输出 和 神经 
网 络 输出 在 划 个 训练 集 上 的 平方 差 在 统计 意义 上 达到 最 小 。 
这 系统 。 下 一 步 假定 我 们 给 定 一 个 已 知 无 记忆 MIMO 系统 ， 其 中 输入 输出 关系 如 式 
(2.39) 所 未 。 在 这 种 情况 下 的 要 求 是 如 何 构造 一 个 天 系统， 针对 向 量 4 产生 系统 向 
量 x。 逆 系统 可 以 由 











































































































学 习 过 各 妇 





X = 全 (d) (2.22) 
描述 ， 其 中 向 量 值 函 数 全 (表示 女 .) 的 反 函 数 。 注 意 ， 信 '() 不 是 人 ) 的 倒数 ， 上 标 -1 仅 
仪 是 反 版 效 的 标志 而 已 。 在 实际 遇 到 的 很 多 问题 中 ， 癌 盟 值 函数 ff ) 过 于 复杂 ， 从 而 限制 了 求 
出 反 明 数 全 '() 的 直接 公式 。 纵 定 如 式 (2.20) 的 “- 些 翌 例 集 ， 我 们 可 以 通过 采取 图 2- 12 所 示 的 
过 程 构造 一 个 神经 网 络 来 通 近 函数 六"(")。 在 这 里 描述 的 情况 中 ，x 和 出 的 作用 交换 了 位 置 : 
向 量 d 作为 输入 ,向 量 & 作为 期 望 的 响应 。 假 定向 量 e 表示 x 与 神经 网 络 针对 由 的 实际 得 
出 8 之 间 的 误差 。 与 系统 辨识 问题 类 似 , 利用 误差 信号 向 量 来 调节 网 络 的 明 由 参数 ， 最 终 使 未 
记 逆 系统 的 输出 和 神经 网 络 输出 在 整个 训练 样 例 集 上 的 平方 差 在 统计 意义 上 达到 最 小 。 
误 著 引 
Abu 


和 嚼 邓 
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图 2-12 逆 模 式 系统 方 框图 





控制 


神经 网 络 可 以 完成 的 另外 一 个 学 习 任 务 是 对 设备 进行 控制 操作 。 所 请 * 设 备 " 指 的 是 一 个 
过 程 或 者 是 可 以 在 被 控 状 态 下 维持 运转 的 系统 的 一 个 关键 部 分 。 学 习 和 控制 相关 其 实 不 是 一 
件 什 么 值得 大 惊 小 怪 的 事情 ， 毕 亮 我 们 人 脑 就 是 一 个 计算 机 ( 即 信息 处 理 器 ) ， 作 为 整个 系统 
的 输出 是 实际 的 动作 。 在 控制 的 这 种 意义 下 ， 人 脑 就 总 一 个 活生生 的 例子 ， 它 证 明 可 以 建立 
一 个 广义 控制 器 ， 充 分 利用 并 行 分 布 式 厂 件 ， 能 够 并 行 控制 成 千 上 万 的 致 动 器 (如 肌肉 神经 
纤维 )， 能 够 处 理 非 线 人 狂人 性 和 噪声 ， 并 且 可 以 在 长 期 计划 水 平 上 进行 优化 (Werbos,1992)。 

考虑 如 图 2 13 所 示 的 反馈 控制 系统 。 沪 系统 涉及 利用 被 控 设备 的 单元 反馈 。 即 设备 的 
输出 直接 反馈 给 输入 巴 。 因 此 设备 的 输出 了 减 去 从 外 部 信息 源 提 供 的 参考 信号 d。 这 样 最 终 [Dj 
庆 生 误差 信 台 ee 并 将 之 应 用 到 神经 控制 器 以 便 调 节 它 的 白 由 参数 .控制 吕 的 主要 功能 就 是 为 
设备 提供 相应 的 输入 ， 从 而 使 它 的 输出 了 跟踪 参考 信号 dt。 换 名 话说， 就 足 控 制 器 不 得 不 对 
设备 的 输入 输出 行为 进行 转换 。 






































图 2-13 ”反馈 控制 系统 方 框图 


我 们 注意 乔 在 图 3-13 中 误 莽 信号 e 在 到 达 设备 之 前 先 通过 神经 控制 器 。 结 果 ， 根 据 误 
郑 - 修正 学 习 算 法 为 了 实现 对 设备 自 出 参数 的 调节 ， 我 们 必须 知道 Jacobi 抢 阵 


J= { 人 3 (2.23) 
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老 2 异 





其 中 办 中 是 设备 输出 了 的 -个 元 件 ， 而 占 尾 设 备 输入 的 一 个 拒 件 。 不 误 的 是 偏 导数 97x7 
3 本 对 于 不 同 的 上 ，7 依 囊 于 设备 的 运行 点 ， 因 而 是 未 知 的 。 我 们 可 以 采用 下 面 两 种 方法 之 一 


来 近似 计算 该 偏 导数 : 


。 间接 学 习 。 利 用 设备 的 实际 输入 -输出 测量 值 ， 首 先 构造 神经 网 络 模型 产生 一 个 它 
的 复制 品 。 接 着 利用 这 个 复制 品 提供 Jacobi 年 阵 本 的 一 个 估计 值 随 之 把 构成 Jacobi 
矩阵 J 的 仿 导 数 用 于 误差 - 修正 学 习 算 法 ， 以 便 计算 对 神经 控制 器 的 自 册 参数 的 调 
节 (Nguyen and Widrow,1989;Suykens et al. ,1996; Widrow and Walach,1996) 。 





直接 学 习 。 偏 导数 ayx/au 的 符号 通常 是 知道 的 而 且 在 设备 的 动态 区 域内 ` 般 是 不 变 


的 。 这 意味 着 我 们 可 以 道 过 各 是 的 符号 来 逼近 这 些 偏 导数 。 它 们 的 绝对 值 由 神经 控 
制 器 的 各 由 参数 的 一 种 分 布 式 表 示 给 出 (Saerens and Sodquet, 1991; Schifftman and Ceffers， 








1993)。 








此 ， 神 经 控制 器 能 够 直接 从 设备 学 习 如 何 调节 它 的 自 


由 参数 - 


汪 波 器 这 个 术 浅 一般 指 的 是 一 种 设备 或 算法 ， 利 用 它 能 从 一 个 带 有 噪 占 的 数据 集中 抽取 


一 定数 量 的 符合 要 求 的 信息 。 上 噪声 可 能 是 由 不 同 来 源 引起 的 。 例 如 , 五 





能 是 采用 


亚 唆 声 的 传 





感 器 测量 数据 ， 也 可 能 表示 承 栽 信 息 的 信号 通过 通信 信道 传输 时 受到 损坏 。 艺 外 一 个 例子 尾 














一 个 有 用 的 信号 元 件 受 到 从 它 周 
三 个 基本 的 信息 处 理 任务 : 








1. 滤波 。 这 个 任务 指 的 是 在 离散 的 时 得 


量 有 价值 的 信息 。 


习 环 境 接收 的 十 扰 信 号 的 损害 。 我 们 可 








2. 平滑 处 理 。 第 二 个 任务 不 同 





可 得 到 ， 而 且 在 时 间 ” 之 后 测量 到 


的 数据 可 








程 中 ， 产 生 输 出 结果 有 延迟 。 














据 ， 而 且 可 以 利用 在 = 之 后 的 数据 ， 从 统 


过 滤 更 加 精确 。 


3. 预测 。 这 个 任务 是 指 信息 处 理 过 


为 在 平滑 处 理 过 程 中 ， 我 们 不 仅 能 够 利 订 
学 意义 上 讲 ， 我 们 期 望 了 








[以 使 用 滤波 器 来 实现 


# 用 直到 ” 上 是 和 包括 = 在 内 的 测量 数据 抽取 一 定 

















于 滤波 处 理 之 处 在 于 在 时 间 =” 内 一 定量 有 价值 的 信息 不 
[以 用 来 得 到 这 个 信息 。 这 意味 着 在 平滑 处 理 过 
直到 时 间 ” 的 数 
F 滑 过 程 应 当 比 单纯 的 


程 的 预测 方面 。 它 的 目的 是 通过 测量 钊 *( 含 *) 时 刻 的 


数据 ， 导 出 一 定量 有 价值 的 信息 ， 这 上段 信息 可 能 与 将 来 = + no 时 刻 的 数据 相似 ， 其 中 m > 0。 
滤波 问题 是 大 家 都 很 熟悉 的 “鸡尾酒 会 问题 " -!9 在 鸡尾酒 会 这 样 一 个 嘲 杂 的 环境 里 面 ， 


房间 里 还 有 其 他 的 于 扰 性 谈话 ， 说 话 者 的 声音 信号 往往 埋没 了 








FF 与 之 儿 乎 差不多 的 噪声 环境 


中 。 但 无 论 怎样 嘱 ， 人 们 都 有 一 个 非常 了 不 起 的 能 力 : 全 神 响 注 听 清 与 之 对 话 者 的 谈话 。 在 
解决 鸡尾酒 会 问题 时 ,可 想 而 知 的 是 ,肯定 采取 了 某 种 形式 的 预 处 理 分 析 手 段 ( Velmans , 
1995)。 在 (人 工 ) 神 经 网 络 环境 中 ， 出 坝 一 个 相似 的 滤波 问题 ， 即 盲 信号 的 分 座 问 题 (Comon， 
1994;Bell and Sejnowski, 1995; Amari et al. ,1996 )。 为 了 将 盲 售 号 分 离 问题 形式 化 ,我 们 假定 





未 知 源 信和 号 集合 | s (mp)i, 彼此 之 间 相 互 独 
立 。 这 些 信号 由 未 知 传感器 的 线性 混合 ， 产 


生 严 x 1 观察 向 量 (参看 图 2- 14) 








X(n) = Au(n) 
其 中 


《2.24) 














,入 工 作证 傅 子 爷 珊 
Ta 1 四 一 on 
| 人 林 甸 浊 合 器 | 0 解 训 有 [2209 
攀 

] on 上 
本 才 知 环境 


图 2- 14 盲 源 分 离 方 框 图 





沉 习 过 4 





utn) = Et (2.23) 
K(n) = xi(n)，za(m) nr)] 了 (2.26) 
向 日 A 中 一 个 本 知 的 挛 x mm 非 奇异 混合 托 阵 。 给 定 观 察 向 量 x( =) ， 要 求 在 无 监督 方式 下 恢 
复原 始 信和 导 由 (na) ,oa(n) um(n)。 
现在 名 到 预测 问题 上 来 ,给 定 过 程 在 过 去 时 间 上 均匀 分 布 的 - 些 值 ， 如 z(na- 7)， 
xz(a-27)，…xz(P-mz)， 其 中 了 式 采样 周期 ，m 是 预测 顺序 ， 要 求 对 过 程 的 当前 值 x(n) 
作出 预测 。 如 图 2- 15 所 示 ， 统 然 训 练 样 本 是 直接 从 过 程 本 身 来 抽取 的 ， 可 以 利用 监督 学 习 
的 误 尘 -修正 方法 来 解决 预测 问题 ， 其 中 *(a) 假 定 为 期 望 的 响应 。 假 定 8(n) 为 神经 网 络 在 
时 间 = 产生 的 预测 值 ， 那 么 误差 信号 e(m) 可 以 定义 为 4(n) 与 x(n) 的 差 值 ，e(z) 用 来 调节 
神经 网 络 的 白 由 参数 。 基 于 此 ， 预 测 可 视 为 某 种 形式 上 的 模型 构建 ， 在 统计 意义 下 ， 这 种 预 
浏 误差 越 小 ， 网 络 作为 产生 数据 的 内 在 物理 过 程 的 模型 性 能 就 越 好 。 如 果 这 一 过 程 是 非 










































































线性 的 。 那 么 使 用 神经 网 络 就 为 解决 巴 xD 
测 问题 提供 了 一 个 强力 的 解决 方案 ， 区 
因为 非 线性 处 理 单元 可 以 开 入 它 的 构造 rmDe | ， 
中 。 但 是 使 用 非 线性 处 理 单元 惟一 可 能 09 | 入 和风 千 和 国志 
的 例外 尾 网 络 的 输出 单元 。 如 果 时 间 数 xm-mmDo- | - + 
列 1x(m)i 的 动态 区 域 是 未 知 的 ， 最 合 F 
再 的 选择 是 使 用 线性 输出 单元 。 图 2-15 “ 非 线性 希 测 方 框图 
波束 形成 

波束 形成 是 滤波 的 空间 形式 ， 利 用 它 区 分 目标 信号 和 背景 噪声 的 空间 性 质 。 用 于 波束 形 
成 的 设备 称 为 波束 形成 器 。 


波束 形成 的 任务 适合 利用 神经 网 络 ， 因 为 从 人 类 听觉 反应 的 心理 声学 的 研究 (Bregman， 
1990 ) 和 蝙蝠 回声 定位 听觉 系统 皮质 层 的 特征 上 映射 研究 (Suga, 1990a; Simmons and Sailant,1992 ) 
中 ， 我 们 有 了 相关 的 线索 。 蚁 蝠 的 钙 声 定位 由 发 送 短 时 频率 调制 (frequeney-modulated,bM) 声 
纳 信号 了 解 周围 环境 ， 然 后 利用 它 的 听觉 系 统 { 包 括 一 对 耳 东 )} 集 中 注意 于 它 的 猎物 (如 飞行 
的 昆虫 ) 。 蝙 蝠 的 耳 条 提供 某 种 形式 的 空间 让 波 (准确 地 说 为 空间 干扰 测量 术 ) ， 听 觉 系 统 利 
它 产生 注意 的 选择 性 (altentional selectivity) 。 
波束 形成 通常 用 于 雷达 和 声 纳 系统 ， 它 们 的 基本 任务 是 在 接收 器 噪声 利 干扰 信号 (如 人 
为 干扰 出现 的 情况 下 探测 和 跟踪 感 兴趣 的 目标 。 两 个 因素 使 这 个 任务 复杂 化 。 
。 目标 信号 源 自 未 知 的 方向 。 
*， 干扰 信号 无 可 用 的 先 验 信息 。 
处 理 这 种 情况 的 一 种 方法 是 使 用 广义 党 罗 消 除 器 (generalized sidelobe canceller, GSLC )， 
图 2-16 吕 示 的 是 它 的 方 框图 。 这 个 系统 由 以 下 组 件 组 成 (Griffiths and Jim, 1982; Van Veen， 
1992; Haykin,1996) : 
” 一 个 天 线 元 阵列 ， 它 提供 对 空间 中 离散 点 上 的 被 观察 的 信号 取样 的 手段 。 
*。 一 个 线性 组 全 器 ， 它 是 由 固定 的 权重 集合 lw, 尼 , 定义 的 ， 其 输出 就 是 期 望 的 响应 。 
这 个 线性 组 合 器 的 作用 就 像 一 个 “空间 滤波 器 "， 它 由 一 个 辐射 模式 刻画 (例如 ,一 个 
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输出 
7yCD 


人 
图 16 广义 旁 角 消除 器 方 框图 


天 线 输 出 振幅 与 输入 信号 人 射 角 的 极 坐 标 图 )。 辐 射 模式 的 主 准 指向 规定 的 方向 。 
此 GSLC 爱 它 约束 而 产生 一 个 无 畸变 的 响应 。 线 性 组 合 器 的 输出 记 为 4&(m)， 它 对 波 
柬 形 成 器 提供 期 望 的 响 应 。 

一 个 忆 号 阻 密 纸 陶 C,， 它 的 功能 是 删除 于 扰 ， 这 种 于 扰 是 通过 代表 线性 组 合 器 的 空 
间 滤 波 器 辐射 模式 的 旁 辩 泄漏 的 。 

，。， 一 个 具有 可 调 参数 的 神经 网 络 ， 它 被 设计 成 能 适应 干扰 信号 的 统计 变化 。 

神经 网 络 的 自由 参数 的 调节 是 由 一 个 在 误 盖 信号 e(n") 上 操作 的 纠 错 学 习 算法 完成 的 ， 
ea) 由 线性 组合 器 的 输出 4(n)》 和 神经 网 络 的 实际 输出 y(n) 之 间 的 差 确定 。 从 而 CSLC 在 线 
性 组 合 器 的 监督 下 操作 ， 线 性 组 合 器 担当 着 “教师 "的 角色 。 作 为 普通 的 监督 学 习 时 ， 注 意 线 
性 组 合 器 是 在 神经 网 络 的 反馈 环 之 外 的 。 一 个 使 用 神经 网 络 来 学 习 的 波束 形成 器 称 为 神经 波 
素 形成 器 (neural beamformer) 或 者 神经 - 波 末 形成 器 (neuro beamfomner) 。 这 类 学 习 机 林 归 人 注 
意 性 神经 计算 机 (attentional neurocomputers) 的 范围 (HechtrNielsen, 1990)。 

这 里 讨论 的 6 个 学 习 任务 的 多 样 性 是 神经 网 络 作为 信息 处 理 系统 通用 性 的 证 明 。 从 基本 
意义 上 说 ， 这 些 学 习 任 务 都 是 从 映射 的 样 例 中 (可 能 有 噪声 ) 学 习 映 射 的 问题 。 如 果 没 有 强迫 
接受 先 验 知识 ， 可 能 的 解 映 射 并 不 俊 .一 ， 从 这 个 意义 上 来 说 ， 每 个 任务 事实 上 都 是 不 适 定 
的 。 使 这 些 解 适 定 的 一 个 方法 是 使 用 第 5 章 描述 的 正则 化 理论 。 


2.11 记忆 


关于 学 习 任 务 的 讨论 ， 特 别 是 模式 联想 的 任务 ， 使 我 们 很 目 然 地 考虑 记忆 的 问题 。 在 神 
经 生物 学 的 语义 环境 中 ， 记 忆 是 指 由 生物 和 它 的 环境 之 各 相互 作用 而 诱导 出 的 相对 持久 的 坟 
经 改变 (Teyler,1986)。 没 有 这 种 变化 就 没有 记忆 而且， 要 想 这 种 记忆 有 用 ， 它 必须 对 神经 
系统 是 可 存 取 的 ， 这 样 才 可 以 去 影响 未 来 的 行为 。 然 而 ， 一 个 活路 模式 必须 首先 通过 学 习 过 
程 被 存储 在 记忆 里 ， 记 忆 和 学 习 错 综 复杂 地 联系 着 。 当 一 个 特定 的 活跃 模式 被 学 习 后 ， 它 就 
存放 在 脑 中 某 个 地 方 ， 在 需要 时 就 会 回忆 起来 。 记 忆 可 以 分 为 短期" 和" 长期" 记忆， 取决 于 
保持 的 时 间 (Arbib,1989 )。 短 期 记忆 指 代表 环境 的 “当前 "状态 的 知识 的 编制 。 以 短期 记忆 存 
储 的 知识 和 “新 ”的 状态 之 间 的 任何 差异 ， 都 会 用 来 更 新 短期 记忆 。 另 一 方面 ， 长 期 记忆 指 长 
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时 间 


或 永远 存储 的 知识 、 
在 这 一 节 中 ， 我 们 学 习 有 如 下 特征 的 联想 记忆 、: 


记忆 是 分 布 式 的 。 

联想 记忆 的 下 激 (关键 ) 模 式 和 响应 (存储 ) 模 式 由 数据 向 量 组 成 。 

通过 没 秆 大 量 神经 元 的 神经 活动 的 空间 模式 ， 在 记忆 里 存 竺 信息 。 

刺激 包含 的 信息 不 仅 决定 它 在 记忆 中 的 在 储 位 置 而 且 决 定 它 的 检索 地 址 。 

虽然 神经 元 不 代表 可 靠 的 和 低 品 音 的 计算 区 ， 但 是 记忆 表现 出 对 扩散 类 型 的 噪音 和 
个 坏 的 总 度 抑制 。 
存储 在 记忆 中 的 单个 模式 之 间 点 该 有 相互 作用 。( 和 否则 记忆 将 会 变 得 非常 大 ， 因 为 它 
要 去 适应 大 量 彼此 完全 隔离 的 模式 的 存储 。) 这 就 是 对 于 记忆 在 回忆 过 程 中 产生 误差 

















的 独特 的 可 能 性 。 1 1 
在 分 布 式 记忆 中 ， 基 本 的 问题 是 许多 不 同 神 经 元 的 Y 


癌 时 或 接近 同时 的 行动 ， 这 是 外 部 或 内 部 刺激 的 结果 。 3 
神经 活动 在 记忆 内 构成 的 空间 模式 包含 关于 刺激 的 信息 。 ， 
因此 ， 我 们 说 记忆 去 执行 一 个 分 布 式 映射 ， 它 把 一 个 输 
人 空间 的 活路 烧 式 转换 为 另 一 个 输出 空间 活 牙 俩 式 。 我 
们 可 以 考 志 一 个 理想 化 的 由 乌 层 神经 元 组 成 的 神经 网 络 ， 神经 元 。 突 角 连接 。 神经 元 
来 解释 分 布 式 记忆 映射 的 一 些 重要 等 性。 可 以 认为 图 2 输 和 民 答 民 
17 是 神经 系统 组 件 模 型 的 网 络 的 图 解 (Cooper, 19733 到 
Seofield & Cooper, 1985 )。 在 输入 层 的 每 个 神经 元 都 和 输 
出 层 的 每 个 神经 元 相 联 结 。 实 际 上 突 触 之 间 的 连接 是 复 惫 
条 的 和 有 宛 余 的 。 在 图 2-17a 的 模型 里 ， 一 个 单独 的 理 
想 连 楼 被 用 来 表示 所 有 突 触 联系 之 间 的 整合 作用 ， 这 些 
突 触 联系 存在 于 输入 层 的 神经 树 窒 和 输出 层 的 神经 轴 突 
分 支 之 间 。 输 入 层 一 个 神经 元 的 活动 水 平 会 影响 到 输出 源 节 点 
层 每 个 神经 元 的 活动 水 平 。 输入 民 
2-J7b 描绘 的 是 相应 的 人 工 神经 网 络 的 情况 。 图 
中 有 一 个 源 节点 的 输入 层 和 一 个 作为 计算 节点 的 神经 元 图 2-17 联想 记忆 模型 
答 出 层 。 在 这 种 情况 下 ， 网 络 的 突 触 权重 被 作为 神经 元 神 经 系统 的 联想 记忆 模型 级 件 
的 整体 部 分 包括 在 输出 层 。 网 络 的 两 层 之 间 的 连接 链 是 。。。 虽 使 用 人 工 神 到 元 的 联想 i 忆 模型 
简单 连 线 。 

在 以 下 的 数学 分 析 中 ,假定 图 2- 17a 和 2-17b 的 神 
经 网 络 是 线性 的 。 这 一 假设 的 内 涵 是 每 一 个 神经 元 都 像 
一 个 线性 组 合 器 一 样 运 作 ， 如 图 2-18 的 信号 流 图 所 示 。 
为 了 进行 分 折 ， 届 想 一 个 活动 模式 x 发 生 在 网 络 的 输入 
层 ， 另 一 个 活动 模式 % 同时 发 生 在 输出 蝴 。 这 里 我 们 要 
考虑 的 问题 是 从 模式 xk 和 模式 mr 之 问 的 联想 中 学 习 。 


模式 x 和 yw 用 向 量 表示 ， 它 们 的 扩展 形式 记 为 ， 图 2-18 线性 神经 元 的 
信和 导 流 图 模型 
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和 3 = [ee 
为 了 表达 的 方便 ， 我 们 假定 输入 空间 维 数 (例如 向 量 飞 的 维 数 ) 和 输出 空间 维 数 (例如 向 景 rr 
的 维 数 ) 是 相同 的 ， 者 等 于 m。 从 此 我 们 称 m 为 网 络 维 数 或 者 简称 维 数 。 注 意 疾 等 于 输入 
层 的 源 节点 数目 或 者 输出 层 的 神经 郊 数 月。 对 于 … 个 有 着 大 量 神 经 元 的 神经 网 络 ， 这 是 典型 
的 情况 ， 维 数 m 可 能 是 很 大 的 . 

xe 和 y 的 元 素 可 假定 是 正 值 或 负 值 。 这 是 人 工 神经 网 络 中 一 个 合理 的 假定 。 当 考虑 一 
个 真实 的 激活 水 平 (例如 一 个 神经 元 的 激发 率 ) 和 一 个 非 零 的 自发 激活 水 平 之 问 益 异 作为 相关 
的 生理 学 变量 时 ， 它 也 可 能 发 生 在 一 个 神经 系统 中 。 

图 2-17 假定 为 线性 的 网 络 ， 关 键 向 量 允 和 已 记忆 的 向 景 % 之 间 的 联想 可 以 用 矩阵 的 
形式 来 表示 如 下 : 





7 = CD ， = 12 9 《2.27》 

这 明 WW( 有 是 权 值 怎 阵 ， 单 独 由 输入 - 输出 对 (xs ,7 ) 确 定 。 
为 了 显示 权 值 矩 阵 凤 ( 驴 的 详细 的 描述 ， 考 虑 图 2- 18， 它 显示 输出 层 里 .个 神经 民 的 
县 体 排列 。 由 于 输 人 层 刺 激 用 于 对 关键 模式 xy 的 元 素 的 组 合 动作 ， 神 经 元 ; 的 笨 出 内 由 下 




















入 = Zoog( 人 全 = 1;2，… 亚 《2,28) 
各 
其 中 妈 ( 和 ,六 = 1，2，…，m 是 神经 元 ; 对 应 于 第 大 对 联想 异 式 的 突 触 权重 。 使 用 扼 阵 记 
号 ， 我 们 可 以 用 等 价 的 形式 
六 
了 = [aa 人 Dan(saan( 丰 ] 各 |， = 2 (2.29) 
en 


表达 各。 式 (2.29) 右 边 的 列 向 量 被 识别 为 关键 向 量 飞 ， 通 过 把 式 (2.29) 代 入 严 x 工 的 存储 向 
量 % 的 定义 ， 得 到 


He) eta 下》 [xn 
各 _ 和 人 人 7 人 他 (30) 
7 0 (天 ) oo2( 下 ) mi( 才 )L an 


式 (2.30) 是 式 (2.27) 中 描述 的 怎 阵 变换 或 瑞 射 的 展开 形式 ， 特 别 是 ，m x 严 和 矩阵 W( 且 可 以 
定义 为 





Mon (有 ao 人 有 oa 下) 
有 

WwW - 人 人 加 人 (2.31) 
(有 aaa 人 (有 


单独 地 表示 9 对 联想 模式 环 一 ?pi， 大 = 1]，2，…，9Y， 生 成 每 个 矩阵 相应 的 值 ， 即 W 
0，W(2)，…，WW(9)。 假 如 这 个 联想 模式 用 权 值 托 阵 四 ( 妇 代 替 ， 我 们 就 可 以 定义 一 个 
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严 x 六 记忆 和 矩阵， 用 来 描述 芭 个 联想 模式 集合 的 权 值 矩阵 的 总 种 ， 表 示 如 下 : 

M = w(D (2.32) 
记忆 和 矩阵 M 定义 联想 记忆 的 输入 和 输出 层 之 问 的 全 部 连接 。 事 实 上 ， 第 阵 M 代表 记忆 表述 
4 个 输入 - 输出 模式 获得 证 的 总 经 验 。 用 另 一 种 方式 表示 就 症 ， 记 忆 拓 阵 M 包含 有 每 个 出 
现 企 记忆 中 的 活动 模式 的 输入 输出 对 。 

式 (2.32) 中 给 出 的 关于 记忆 第 阵 的 定义 用 递归 的 形式 可 以 重新 表示 为 

ML = Me + 有 (有 下 = 12m9 (2.33) 
这 里 Me 的 初 值 是 0( 也 就 是 说 ， 记 忆 中 的 所 有 突 触 权 值 部 被 初始 化 为 0) ， 最 终 的 值 M, 和 式 
《2.32) 中 定义 的 M 的 值 完全 相等 。 根 据 递归 公式 (2.33) 可 知 ， 项 M-: 是 从 (天 - 1) 个 联想 模 
式 得 出 揭 记 忆 撼 阵 的 旧 值 ，ML 是 按照 第 个 联想 模式 产生 的 增 基 友 (#) 更 新 后 的 值 。 然 而 ， 
要 注意 的 是 ， 如 果 把 妈 ( 丰 ) 加 到 Mi 上 ， 增 量 W( 旭 的 值 就 失去 了 在 组 成 Mu 时 的 惟一 性 。 
虽然 考虑 不 同 联想 的 突 触 混 合 ， 但 有 关 刺 激 的 信息 可 能 并 未 丢失 ， 就 像 最 后 结果 显 丰 的 那样 。 
还 要 注意 的 是 ， 当 存储 的 模式 数 基 4 增 大 时 ， 记 忆 中 新 模式 的 影响 总 的 来 说 在 连 渐 减 小 。 


相关 矩阵 记忆 


假设 图 2- 17b 的 联想 记忆 通过 由 xs 一 y 描述 的 关键 模式 和 记忆 模式 的 联想 学 习 了 记忆 
拢 阵 M 并 已 经 记 住 了 ,这 里 丰 = 1，2，…，Y。 我 们 可 以 假定 吗 ， 代 表 记 忆 抵 阵 M 根据 这 
些 模 式 得 出 的 估计 值 C(Anderson,1972,1983; Cooper,1973) ， 胡 示 如 下 : 

KM -= 六 rw (2.34) 

项 ye 代表 关键 模式 x 和 记忆 模式 yy 的 外 积 。 这 个 外 积 是 权 值 和 矩阵 妈 ( 大 ) 的 估计 值 ， 权 值 
撼 阵 把 模式 y 揣 射 到 输出 模式 x% 上 。 有 既然 模 式 x 利 y 都 被 假设 为 中 x 1 向量， 所 以 它们 
的 输出 乘积 % 允 ， 也 就 是 估计 值 W 就 是 一 个 下行 严 列 的 矩阵 。 这 个 维 数 正好 和 等 式 (2.32) 
中 定义 的 记忆 秆 阵 M 相 一 致 。 估 计 值 下 总 和 的 形式 与 式 (2.32) 中 定义 的 记忆 玩 阵 有 着 直接 
的 联系 。 

外 积 ytg 的 典型 形式 可 以 表示 为 yuxzrj ， 这 里 辐 是 输入 层 中 源 节点 7 的 输出 ， 包 是 和 町 出 
层 中 神经 元 i 的 输出 。 在 第 直 个 联想 的 突 触 权 植 由 (中 ， 源 节点 /代表 一 个 前 突 触 节点 ， 
输出 层 中 的 神经 元 i 代表 一 个 后 突 触 节 点 。 因 此 ， 式 (2. 和 3) 中 描述 的 “局 部 "学 习 过 程 可 以 看 
成 是 Hebb 学 习 假 设 的 推广 。 考 虑 到 用 于 构造 记忆 矩阵 M 的 抵 阵 运算 ， 它 也 称 为 外 积 规则 。 
相应 地 ,这 样 设计 的 联想 记忆 称 为 相关 竹 阵 记忆 。 这 种 或 那 种 形式 的 相关 ， 确 实 是 人 类 神经 
系统 中 学 刁 、 联 想 、 模 式 识别 和 记忆 国 想 的 基础 (Eggemmnont, 1990 ) 。 

式 42.34) 可 以 重新 写成 等 价 的 形式 为 : 





























= YX 《2.35) 


这 里 
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X = [Ra 虽 ，r] (2.36) 
YY = [yy] (2.37)》 
年 阵 王 是 一 个 由 学 习 过 程 中 使 用 的 所 有 关键 模式 组 成 的 严 行 4 列 答 阵 。 和 矩阵 立 是 由 由 应 的 
记忆 模式 组 成 的 玫 行 9 列 年 阵 ; 称 作 被 记忆 矩阵. 
式 2.35) 可 以 用 递归 的 形式 表示 成 
ML = ML + mm 三 ， = 1,2，s4 (2.38) 
图 2-19 表示 这 个 递归 的 信号 流 网 。 根 据 
这 个 信号 流 图 和 递归 公式 (2.38)， 和 矩阵 
蔽 -代表 记忆 矩阵 的 旧 癸 计 值 ; 矩阵 区， 
代表 记 筷 作用 于 模式 和 yx 所 得 的 新 联 六 
想 的 改变 值 。 比 较 式 (2.38) 和 (2.33) 中 的 
递归 ， 我 们 可 以 看 出 ， 外 积 % 鸡 代表 权 
值 息 阵 W( 刀 相 应 于 第 上 个 关键 模式 xx 
利 记忆 烧 式 ye 联想 的 估计 值 。 图 2-19 等 式 (2.38) 的 信号 流 图 表示 








回忆 


在 使 用 一 个 习 想 记忆 的 过 程 中 提出 的 基础 问题 是 : 保存 在 记忆 中 模式 的 地 址 和 回忆 。 为 
了 解释 这 个 问题 的 一 个 方面 ， 我 们 让 疯 表示 一 个 联想 记忆 的 记忆 手 阵 ， 通 过 与 式 (2.34) 相 
一 致 的 ? 个 联想 模式 ， 已 经 完成 了 对 这 个 矩阵 的 学 习 。 随 机 选取 一 个 关键 模式 天 作为 记忆 
的 刺激 产 生 响应 





y = Nix (2.39) 


将 式 (2.34) 代 入 式 (2.39)， 得 到 
y = rex = 袜 Cga)r (2.40) 


这 里 ， 看 到 第 二 行 中 的 次 % 是 -- 个 标量 ， 它 的 值 等 于 关键 向 量 x% 和 吕 的 内 积 。 我 们 果 以 将 
式 (2.40) 重 写成 





y = ( 允 W)y + gx (2.41》 
台 
设 关键 模式 5 ， 尺 ，…，z 均 被 规格 化 为 具有 单位 能 量 ， 邵 
玖 = 们 已 = Wwwx = 1， 下 = 1 2， 《2.42) 
名 
相应 地 ， 可 以 将 记忆 对 刺激 (关键 模式 )x 的 响应 简化 为 
了 = 歼 + 《2.43) 
其 中 
Y = 立 Cgw)y (2.44) 
加 





式 (2,43) 右 边 的 第 一 项 代表 “期 望 的 "响应 %i; 所 以 ， 可 以 将 它 看 作 是 实际 的 响应 了 的 “信和 号 ” 
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部 分 。 第 二 项 w 是 “噪声 向 盟 "， 它 是 由 关键 向 量 % 和 其 他 所 有 存储 在 记 亿 中 向 量 的 串 音 产 
生 的 。 噪 声 向 最 w 是 引起 回忆 误差 的 根源 。 

在 线性 信号 空间 的 情况 下 ， 我 们 可 以 将 一 对 向 量 & 和 xs 夫 角 的 余 汞 定义 为 夯 和 xs 的 
内 积 再 除 以 它们 各 白 的 欧 几 里 德 范 数 或 长 度 的 乘积 ， 胡 示 为 





eos( 和 ui ) = TS (2.45) 
符 导 ‖ xs | 上 代 硼 向 基 和 的 欧 儿 里 德 范 数 ， 定 义 为 习 的 能 量 的 平方根 : 
| = (xD (2.46) 


返 加 来， 注意 根据 式 (2.42) 关 键 向 量 都 被 规格 化 为 具有 单位 能 景 。 因 此 ， 我 们 可 以 将 式 
(2.45) 的 定义 变 为 








ceos(Xr ,已 )》 = 机 已 《2.47) 
我 们 可 以 把 式 (2.44) 中 的 噪声 向 量 重 新 定义 为 
V = oos(x mo)y (2.48) 
个 
现在 看 出 ， 如 果 关键 向 量 是 正 交 的 (也 就 是 葛 ， 在 欧 几 里 德 意 义 下 互相 垂直 )， 那 么 
ceos(xr ,2 ) = 0， 开 天 节 《2.49) 
因此 噪声 问 基 v 为 0。 在 这 种 情况 下 ， 响 应 了 等 于 台 。 若 关键 向 量 为 正 交集 合 ， 即 满足 条 件 
四 
xrx = 人 4 (2.50) 


那么 ， 联 想 记 忆 是 完全 的 。 

现在 ， 假 定 关键 向 量 满足 式 (2.507， 那 么 联想 记忆 的 存储 能 力 的 限制 是 多 大 呢 ? 换 人 句 话 
说 ， 能 可 靠 存储 模式 的 最 大 数 旺 是 多 少 呢 ? 这 一 基本 问题 的 答案 主要 在 于 记忆 怎 阵 班 的 秩 。 
所 谓 一 个 矩阵 的 秩 指 的 是 算 阵 中 相互 不 相关 的 行 ( 列 ) 数 。 就 是 说 ， 如 果 r 是 这 样 一 个 1 x 严 
维 矩 阵 的 秩 ， 那 么 r 么 min( 1,m)。 在 相关 记忆 中 ,记忆 夭 阵 碍 是 x mm 的 矩阵 。 其 中 mm 是 
输入 空间 的 维 数 。 因 此 ， 记 忆 矩阵 碍 的 秩 受 维 数 mm 的 限制 。 我 们 因而 可 以 正式 地 说 准确 无 
误 地 存储 在 相关 矩 阵 记 忆 中 的 模式 数目 决 不 可 能 超过 输入 空间 的 维 数 。 

在 实际 生活 中 ， 我 们 通常 会 发 现 提供 给 联想 记忆 的 关键 模式 既 不 是 正 交 的 ， 也 不 是 披 此 
高 度 分 离 的 。 内 此 由 式 (2.34) 的 记忆 和 扎 阵 所 表征 的 相关 矩阵 记忆 有 时 会 很 混乱 而 且 容易 产生 
错误 。 也 就 是 说 ， 记 忆 有 时 会 偶尔 识别 出 或 联想 以 前 从 未 见 到 或 相关 联 的 模式 。 为 了 说 明 联 
想 记 忆 的 这 一 属性 ,考虑 一 个 关键 异 式 集合 


二 














和 一 个 相关 记忆 模式 集合 

ju 
为 了 表示 线性 信号 空间 的 关键 模式 密切 性 ， 我 们 引入 相似 度 (community ) 的 概念。 我 们 将 异 式 
集合 txei 的 相似 谨 定 义 为 集合 中 任意 两 个 模式 x 和 xx 内 积 双 z 的 下 界 。 假 定 班 表示 由 对 
关键 模式 集合 ;xy| 和 与 式 (2.34) 对 应 的 记忆 模式 集合 |ywo| 的 联想 记忆 训练 导致 的 记忆 算 
阵 。 假 定 集合 jxse1 中 的 每 个 模式 为 单位 向 量 ( 即 具 有 单位 能 量 的 向 量 ) ， 对 于 1xe | 中 挑选 出 
的 刺激 &% 所 对 应 的 记忆 响应 了 由 式 (2,39) 给 出 。 进 一 步 假设 
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YY， 对 开关 7 (2.51) 

如 下 界 yY 足 够 大 ， 那 么 记忆 不 能 将 喝 应 y 与 集合 1sji 中 其 他 任何 一 个 的 关键 模式 区 分 开 来 。 

假如 该 集合 的 关键 借 式 具有 

已 = 鸡 +Y 《2.52) 

的 形式 ， 共 中 Y 是 随机 向 基 ， 记 忆 很 有 可 能 识 旨 由 丙 ， 并 联想 出 向 量 m 而 不 是 原来 实际 用 

来 训练 的 模式 对 ; 和 和 W 表示 以 前 从 未 见 过 的 一 对 模式 。 这 种 现象 可 以 称 为 动物 远 却 
(animal logic)， 它 完全 没有 逮 辑 (Cooper, 1973 ) - 


2.142 自 适 应 


在 执行 某 个 感 兴趣 的 任务 过 程 中 ， 我 们 常常 发 现 空间 是 学 刁 过 程 中 的 一 个 基本 的 维 ， 而 
时 间 是 另外 -个 维 。 在 2.10 节 讨论 的 各 种 学 习 任 务 { 例 如 控制 、 波 东 形 成 等 ) 必 学 习 任 务 的 
时 空 性 质 。 从 屁 虫 到 人 类 各 种 物种 都 有 一 种 点 示 经 验 的 时 间 结构 的 本 能 。 这 种 表示 使 动物 可 
能 让 它 的 行为 适应 它 的 行为 空间 中 事件 的 时 间 蛙 构 (Gallistel, 1990) 。 

从 理论 上 讲 ， 当 神经 网 络 处 于 一 个 兽 态 的 环境 ( 即 环境 的 统计 特性 不 随时 间 变 化 ) ， 网 络 
对 环境 的 重要 统计 性 质 可 以 在 教师 监督 下 进行 学 习 。 特 别 是 ， 网 络 的 突 触 权 值 可 以 通过 网 络 
与 代表 环境 的 数据 集 的 训练 过 程 而 计算 得 到 。 一 号 训练 完成 、 网 络 的 突 触 权 值 就 可 以 捕获 环 
境 的 基本 统计 结构 ， 随 后 就 可 以 “冻结 "它们 的 值 。 这 样 一 来 学习 系统 依靠 这 种 或 那 种 形式 
的 记忆 ， 回 忆 或 者 利用 过 去 的 经 验 。 

然而 ， 环 境 往往 是 非 静止 的 ， 即 由 环境 产生 的 藉 载 信息 的 信号 的 统计 参数 随 着 叶 间 发 生 
变化 。 在 这 种 情况 下 ， 传 统 的 有 监督 学 习 方式 是 不 适合 的 ， 因 为 网 络 没有 相应 的 必要 的 方法 
来 跟踪 它 所 处 环境 的 统计 变化 。 为 了 克服 这 些 不 足 ， 希 望 神经 网 络 最 好 可 以 以 一 种 实时 的 方 
式 ， 不 断 地 很 据 输 和 人 信号 的 变化 及 时 调整 自由 参数 。 因 而 自 进 应 系统 针对 每 一 个 不 同 的 输 人 
作出 新 的 响应 。 换 言 之 ， 白 适应 性 系统 的 学 习 过 程 永 不 停息 ， 系 统 在 进行 信 叶 处 理 的 同时 进行 
学 习 。 这 种 形式 的 学 习 就 叫做 持续 学 习 (continuous leaming) 或 飞翔 式 学 习 (learming-on-the-fy)o 
线性 自 适应 滤波 器 就 是 设计 用 来 作为 持续 学 习 的 。 它 是 建立 在 线性 组 合 器 上 的 ( 即 在 线 
性 模式 下 运算 的 单 神经 元 )。 尽 管 它们 的 结构 简单 (也 许 正 是 因为 如 此 ) ， 它 们 才 被 广泛 地 应 
于 各 种 不 同 领域 当中 ， 如 雷达 、 声 纳 、 通 信 、 地 震 学 和 生物 医疗 信 叶 处 理 。 线 性 和 直 适 应 性 
滤波 器 的 埋 论 己 经 发 展 到 了 个 高 魔 成 熟 阶段 (Haykin ,1996; Widrow and Stcarns,1985 )。 但 是 
非 线性 自 适 应 性 过 让 器 还 未 能 达到 同样 的 水 准 20。 
具有 持续 学 习 特 性 上 且 以 神经 网 络 作为 它 的 实现 工具 ， 我 们 必须 要 解决 的 问题 是 : 神经 网 
络 如 何 使 它 的 行为 适应 它 的 行为 空间 中 输入 信号 变 化 的 时 间 结 构 。 解 凑 这 一 基本 问题 的 -~ 个 
方 侧 是 认识 到 非 静 止 过程 的 统计 特性 通常 变化 很 慢 ， 其 过 程 在 一 个 足够 短 的 时 间 内 考虑 为 人 
平稳 的 。 例 如 ， 

。 产生 语音 传 号 的 机 制 在 10 至 30 堂 秒 内 可 认为 是 基本 平稳 的 。 

。 在 几 秒 内 从 海洋 表面 返 同 的 雷达 保持 基本 平稳 

，。 对 长 期 大 气 项 报 ， 以 分 钟 计 的 天 气 数据 可 认为 基本 平稳 。 

。 在 以 月 和 年 计 的 长 期 趋势 中 。 以 天 计 的 股市 数据 可 认为 基本 平稳 。 

因此 我 们 可 利用 随机 过 程 的 伪 平 稳 性 质 ， 根 据 输入 数据 的 统计 波动 在 某 些 固定 的 时 间 间 
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隔 内 重新 训练 神经 网 络 以 扩展 它 的 应 用 例如， 这 种 方法 可 以 适合 处 理 股 市 数 袜 

对 学 习 的 更 好 的 动态 方法 , 我 们 可 以 如 下 处 理 : 

。， 对 和 输入 数据 挑选 足够 短 的 时 间 窗 品 ， 使 其 可 以 被 认为 是 伪 稳 定 的 ， 利 用 该 数据 训练 
网 络 ， 
。 当 收 到 一 个 新 的 数据 样本 时 ， 丢 弃 最 早 的 数 指 样本， 向 后 移动 一 个 时 间 单 位 为 新 样 
本 留 出 空间 ， 更 新 窗 [1。 

，。 利用 更 新 的 数据 窗口 重新 训练 网 络 。 

。 在 连续 的 基础 上 重复 这 个 过 程 。 

从 击 我 们 可 以 利用 时 序 例子 使 网 络 经 过 持续 训 红 在 神经 网 络 设计 中 建立 时 间 结构 。 根 据 
这 个 动态 方法 ， 神 经 网 络 可 看 作 是 由 线性 自 适 应 滤波 器 排 广 的 非 线性 自 透 应 滤波 器 。 但 是 为 
了 非 线性 白 适 应 滤波 器 的 这 个 动态 方法 可 行 ， 可 用 的 资源 必须 足够 快 使 得 在 -个 采样 周期 内 
完成 所 有 博 述 的 计算 。 只 有 这 样 滤波 器 才能 和 输入 空 化 保持 同步 。 
2.13 ”学习 过 程 的 统计 性 质 

本 章 的 最 后 部 分 讨论 学 习 的 统计 方面 。 在 这 里 当 神 经 网 络 通 过 - 个 学 习 算 法 循环 训练 
时 ， 我 们 所 关心 的 不 是 权 向 量 m 的 演变 ， 而 是 日 标 函 数 天 xz) 和 由 神经 网 络 所 实现 的 “实际 ” 
丽 数 F(x，w) 之 间 的 偏差 ， 其 中 向 量 x 表示 输入 信和 号。 这 种 偏 益 以 统计 的 方式 表述 

神经 网 络 只 是 通过 训练 可 以 对 一 个 物理 项 象 或 环境 的 经 验 知识 进行 编码 的 方式 之 一 
“经 验 知识 "这 里 指标 志 着 环境 特征 的 一 组 测量 。 更 具体 地 ， 考 虑 一 个 随机 现象 的 例子 ， 它 由 
包含 有 一 组 独立 变量 的 随 帆 疝 量 X 和 表示 一 个 依赖 变量 的 随机 标量 六 描述 。 随 机 向 量 科 的 
元 素 可 以 带 有 它们 自己 不 同 的 物理 含义 。 依 赖 变量 到 是 一 个 标量 的 假设 仅仅 是 为 了 简化 说 
明 而 不 失 … 般 性 。 同 时 假设 我 们 有 凡 |xs; 沁 1: 表示 的 随机 二 量 习 的 闪 个 实现 ， 以 及 用 } 和 |， 
表示 的 随机 标量 刁 的 一 组 对 应 的 实现 。 这 些 实现 (测量 ) 构 成 了 用 

本 = 1 ) (2.53) 

表示 的 训练 样本 。 通 常 我们 不 知道 和 之 间 的 确切 函数 关系 ， 所 以 我 们 通过 提出 模型 
(White,1989a) 























万 = FLX) + (2.54) 
进行 讨论 ， 其 中 瑚 : ) 是 其 自 变 莉 癌 量 的 一 个 确定 性 函数 ，s 是 一 个 随机 期 望 误 羡 ， 它 代表 了 
我 们 对 只 和 尺 之 各 依赖 关系 的 “无 知 "。 由 式 (2,54) 描 述 的 统计 模型 称 作 回归 模型 ; 它 币 措 
述 和 在 网 2-20a 中 。 期 望 误 差 s- 般 是 -- 个 带 有 均值 为 0 和 正 的 发 生 概率 的 随机 变量 ， 在 此 基 
础 上 ， 图 2-20a 的 回归 模型 有 两 条 有 用 的 性 质 ， 
1. 给 定 任何 实现 x， 期 户 误 益 = 的 均值 为 零 ; 即 
E[slx] =0 (2.55) 
其 中 五 足 数 学 期 望 操作 符 。 作 为 此 性 质 的 “个 推论 ， 我 们 可 以 说 回归 数 六 x) 在 给 定 输入 
X= x 的 情况 下 足 模 型 输出 妃 的 条 件 均值 ， 表 示 为 
Fax) = 五 [万 1 可 (2.56) 
这 一 等 式 直 按 根 据 式 (2.55) 从 式 (2.54) 得 到 。 
2. 期 望 误 益 s 与 辐 归 吨 数 大 和 ) 是 不 相关 的 ; 即 
五 [er(X)] = 0 (2.57) 
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这 个 性 质 就 是 著名 的 正 交 性 原理 ， 它 说 明 我 们 能 够 通过 输 人 X 获取 的 关于 己 的 信息 都 已 被 
包含 进 回 汪 函数 关 X) 之 中 - 式 (2.57) 窑 易 证 明 如 下 ， 
帮 EX)] = 开 [E[er(GX) TS] = 己 [ACX)E[elx] = ELAX 0] =0 

加 2-20a 的 团 归 模型 是 对 随机 环境 的 一 个 "数学 "描述 。 它 的 目的 是 用 后 量 X 解释 或 预测 
依赖 变量 吕 。 图 2-20b 是 对 应 末 境 的 “物理 "模型 。 这 第 二 个 基于 神经 网 络 的 模型 的 目的 足 将 
出 训练 样本 5 表示 的 经 验 知识 编 但 进 对 应 的 一 红 突 触 权 值 向 量 w， 表 示 成 

林 > 兄 (2.58) 

实际 上 ， 神 经 网 络 提供 了 一 个 对 图 2-20a 的 回归 模型 的 “近似 ”。 令 神经 网 络 对 输 人 向 量 X 的 
实际 响 庶 表示 为 随机 变 熏 








= ( 辟 ,mw) (2.S9) 
其 中 R(…w) 是 由 神经 网 络 实现 的 输入 - 输出 咕 数 。 给 定式 (2.53) 的 训练 数据 5 ， 权 值 向 量 
罗 通 过 最 小 化 代价 男 数 


























， 
SCw) = 去 圣人 4 -oo (2.60) 
mm 4 二 (zs 
。 
由 回归 模型 (教学 的 ) “ 上 神 经 网 络 重型 ( 物 理 的 ) 


图 2-20 随机 环境 模型 


获得 ， 其 中 使 用 因子 42 是 为 了 与 早先 的 表示 法 和 后 面 各 章 中 的 表示 法 保持 一 致 ， 除 了 比例 
因子 1/2 以 外 ， 代 价 函 数 营 (w) 是 期 望 响 应 4 和 神经 网 络 实际 响应 y 之 问 在 整个 训练 数据 集 9 
上 的 平方 差 。 使 用 式 (2.60) 作 为 代价 函数 意味 闭 采用 了 "成 批 " 训 练 。 所谓“ 成 批 ? 训 练 ， 我 们 
是 指 对 神经 网 络 帘 触 权 值 的 调整 是 在 整个 训练 样 例 集 上 进行 的 ， 而 不 旦 在 单个 样 例 的 基础 上 
过 行 。 
符号 5 友 示 作用 于 整个 训练 样本 了 的 均值 莫 子 。 在 均值 算 子 应 作用 之 下 的 变 电 和 它 
们 的 数 为 X 和 d4; 《xc,d) 对 代表 训练 样本 了 中 的 一 个 例子 。 与 此 相对 照 ， 统 计 期 望 算 子 
忆 作 用 在 随机 变量 X 利 书 的 整个 总 体 上 ， 可 足 它 的 一 个 子 集 。 算 子 下 和 有 5 之 间 的 闪 异 应 在 
下 面 的 讨论 中 仔 纲 区分- 
依据 式 (2.58) 中 搞 述 的 变换 ， 我 们 可 以 交换 的 使 用 RCx,w) 利 P(x,g) 并 旦 因此 将 式 
(2.60) 重 写 为 等 价 形式 











e(w) = 了 本 Cd- zx, 了 JP] (2.6D 


对 变 元 (4 - EX， 汪 )) 加 减 扎 x) ， 再 利用 式 (2.54) ， 我 们 可 写成 
d-FX) =(dnAooO)+CUU -PPG)) -e+(Cx) -FOX9)) 
通过 在 式 (2.61) 中 代 人 此 表达 式 ， 然 后 展开 项 ， 我 们 可 以 将 代价 蚌 数 加 (w) 重 构 为 等 价 形式 


SCw) = 才 Bz[e + 二 桓 [(AGO - Po3)2] + 本 [e0rGo -Flxg))] (2.62) 
2 2 
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然而 ， 式 (2.6@2) 右 边 的 最 后 的 一 项 期 望 由 二 下 面 两 个 原因 而 值 为 0; 
， 通过 算 子 丁 的 解释 ， 依 据 式 (2.57) 期 望 误差 s 与 回归 函数 7/X) 是 不 相关 的 。 
。 期 望 误差 。 属 于 网 2. 20a 的 回归 模型 ， 而 遂 近 函数 P(x,w) 属 于 图 2-20b 的 神经 网 络 
模型 。 
从 而， 式 (2.62) 化 为 
EC = 二 应 [e] + 二 态 [UW(O - PCc3)D 门 (2.63) 


式 (2.63) 有 在 边 的 第 一 项 中 在 训练 样本 了 之 上 计算 的 期 望 (回归 异型 的 ) 误 益 s 的 方 益 、 这 一 项 
代表 内 在 误差 ， 因 为 它 独立 于 权 值 向 量 w。 就 展 小 化 关于 mw 的 代价 因 数 包 (w) 而 言 ， 它 可 以 
被 忽略 。 这 习 ， 最 小 化 代价 恩 数 革 (w) 的 特定 权 值 向 量 值 w” 也 将 最 小 化 回归 函 .A(x) 和 通 近 
阴 数 F(x, w) 之 间 的 总 体 平均 平方 距离 。 换言之 ， 对 P(zx w) 作 为 期 望 响应 @ 的 预测 器 的 有 
效 性 的 自然 测度 定义 为 

(PFCw)) = 历 [CGD - FGx3)7] (2.04) 
这 - -结果 其 有 根本 性 的 重要 意义 ， 四 为 它 为 由 寺 使 用 PCx,W) 作 为 对 扎 轨 的 近似 而 产 牛 的 仿 
置 和 方差 问 的 折衷 提供 了 数学 基础 (Ceman et al. ,1992)。 


偏 置 /方差 困境 


回忆 式 (2.56) 的 使 用 ， 我 们 可 将 关切 和 忆 (x,w) 间 的 平方 距离 重新 定义 如 下 : 

CR PFCOEW)) = 所 [(E[DD1X=J- FOX3)7] (2.65) 
这 一 表达 式 也 可 以 看 作 是 在 整个 训练 样本 g 之 上 计算 的 回归 函数 六 x) = 4LDIX=x] 和 通 近 
函数 F(x,w) 之 间 的 估计 误差 的 平均 值 。 注 意 ， 条 件 均值 开 [TD1X= 妇 关 于 训练 数据 样本 5 为 
一 个 常量 期 望 。 进 一 步 我 们 发 现 
克 [万 | 和 买 =X] 一 FF(xX5) = (天 [万 1 刁 =X -有 IJ)])+(OELRFG)] -FI)) 
中 我 们 只 是 加 上 和 减 去 了 均值 5 [PP(x, 可 )]。 首 过 类 似 于 从 式 (2.61) 中 获得 式 (2.62) 那 样 
的 方式 进行 推导 ， 我 们 可 将 式 (2.65) 重 写 为 两 项 之 利 ( 匈 问 题 2.22) : 
























































PCRX) ,PCS)) = 居 (w) + Fw) (2.66) 

其 中 B(w) 和 FCw) 各 自 定义 如 下 : 
B(w) = Br[FCx3)]- 互 [六 IX= 如 (2.67) 
MOm) = BrCA005) -本 -CC5)]7] (2.68) 


现在 ， 我 们 作出 两 点 重要 说 明 : 

1. 项 8(w) 征 逼近 函数 F(x,5 ) 的 平均 值 对 于 癌 归 函 数 . 护 x) = 万 [站 IX=x] 的 偏 置 。 这 一 
项 党 明 内画 数 PR(x,w) 定 义 的 神经 网 络 不 能 准确 地 加 近 回 归 冰 数 Ax) = 吾 [ DPIX=xl 我们 
因此 可 以 将 和 偏 置 本 (w) 看 作 个 逼近 误差 。 
2. 项 扩 W) 是 在 整个 训练 样本 5 之 上 测量 的 遂 近 上 因 数 PR(x,w) 的 方差 .这 个 项 说 明 包 含 
在 训练 样本 7 上 中 的 关于 回归 函数 灵 x) 的 信息 是 不 充分 的 。 我 们 内 此 可 将 方差 Y(w) 看 作 是 
估计 误差 的 体现 。 
2-21 显示 目标 数 和 逼近 范 数 间 的 关系 ， 以 及 估 讨 误差 也 就 是 偏 罗 利 方差 是 如 何 积累 
的 。 为 了 取得 好 的 整体 性 能 ， 逼 近 函 数 F(x,w) = F(x, 了 ) 的 偏 置 和 方差 都 必须 很 小 才 行 。 























器 
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图 2-21 说 明 求解 回归 问题 的 各 种 误差 源 


不 玉 的 有 是， 我 们 发 现任 以 通过 例子 学 习 并 有 训练 样本 大 小 是 固定 的 神经 网 络 里 ， 获 得 小 
偏 置 的 代价 是 方 考 大 ， 对 于 单个 神经 网 络 ， 只 有 当 训练 样 丰 的 数量 无 限时 ， 我 们 才能 指望 癌 
时 消除 旭 置 和 方差 两 者， 子 是 我 们 训 仿 置 /方差 困境 ， 其 结果 是 不 可 避免 的 慢 收 和 剑 性 (Ceman 
el al. .1992)。 俩 置 / 方 益 困 境 串 以 被 避免 ， 如 果 我 们 愿意 人 有 上 月 的 的 引入 偏 填 ， 这 样 使 得 消除 
或 大 大 消减 方 冀 成 为 可 能 。 无 需 效 言 ， 我 们 必须 保证 在 阅 络 设计 中 带 人 的 偏 置 是 无 害 的 ; 例 
如 ， 在 模式 分 类 的 情况 下 ， 在 下 述 意义 之 下 篇 器 被 认为 是 “无 需 的 "， 那 就 是 只 有 当 我 们 试图 
推断 林 在 预料 的 分 类 之 中 的 回归 时 ， 偏 前 才 大 大 提高 均 方 误差 。 一 般 来 讲 ， 必 须 为 每 个 特定 
的 应 用 设计 偏 置 。 达 到 这 样 目标 的 -个 实用 的 方法 是 使 用 约束 网 络 结构 ， 这 样 的 网 络 结构 通 
常 比 通 用 结构 有 喝 好 的 性 能 。 比 如 ， 约 束 以 及 由 此 而 来 的 偏 置 可 以 使 用 如 下 的 两 种 方式 采取 
先 验 知识 的 形式 嵌入 网 络 设计 中 : (1) 共 享 权 值 ， 其 中 网 络 的 几 个 突 触 由 一 个 权 值 控制 ， 和 / 
或 (2) 给 网 络 中 每 个 神经 元 分 配 局 部 接收 域 (]peal meceptive field) ， 就 像 用 多 层 感 知 器 识别 光 字 符 
问题 中 所 展示 的 那样 (TeCun et 引 . ,1990a )。 这 些 网 络 设计 问题 在 1.7 节 中 简略 讨论 过 。 


2.14 统计 学 习 理论 


在 这 一 节 里 ， 我 们 通过 描述 一 种 学 习 理论 来 继续 讨论 神经 网 络 的 统计 特性 。 这 种 学 习 理 论 从 
数学 角度 论述 如 何 控制 昼 经 网 络 的 推广 能 力 的 根本 问题 。 讨 论 在 监督 学 习 下 进行 
监督 学 习 模 型 包括 :个 相互 关联 的 部 分 ， 如 图 二 
2-22 所 示 ， 从 数学 角度 可 抽象 如 下 (Vapnik, 1992， 
1998) ， 
1. 环境 。 环 境 是 青 仿 的 ， 提 供 向 量 x， 它 带 有 
一 固定 但 未 知 的 昧 积 ( 概 率 ) 分 布 函 数 。 
2. 教师 。 教 师 为 每 个 从 环境 中 获得 的 输入 问 量 
X 提供 一 个 期 蔚 响 应 d， 其 根据 是 条 件 累积 概率 分 
布 函 数 PCxid)， 它 同样 是 固定 但 未 知 的 。 期 望 响 
应 4 和 输入 向 量 x 的 关系 为 、 玉 
让 三 天 友 (69) 3 宙 ja Fix w 
其 中 * 是 只 声 项 ， 允 许 教师 是 “有 噪声 的 "。 淋 
3. 学 习 机 器 (算法 ) :学习 机 器 (神经 网 络 ) 能 实 
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现 -组 输入 -输出 映射 轴 数 ， 描 述 为 
y = 五 (X, 凤 ) (2.70) 
其 中 了 昆 学 习 机 器 对 输入 x 的 实际 上 应 ，w 是 -- 组 选 自 参数 ( 突 秀 权 值 ) 空 间 人 的 自由 僚 数 
《 权 值 )。 
式 (2.69) 和 (2.70) 足 依据 用 于 完成 训练 的 样 例 写 的 。 
监督 学 习 问 题 就 是 以 最 优化 的 方式 选择 盘 近 期 望 响 应 4 的 特定 画 数 R(x,w) 的 门 题 ， 这 
蛙 的 "最 优化 "是 以 某 种 统计 意义 定义 的 。 这 种 多 择 小 身 基 于 在 式 (2.53) 中 撒 述 的 六 个 独立 
周 分 布 的 ( 则 ) 训 练 样本 ， 为 才 示 方便 重 写 如 下 ， 
了 = (xd 
每 个 样 例 由 学 习 机 器 以 联合 累积 (概率 ) 分 布 函数 Px.n(x, g 从 了 中 抽取 出 米 ， 像 其 他 分 布 是 
数 一 样 ，Fx sfx,d) 同 样 是 冉 定 但 未 知 的 。 监 督学 习 的 可 行 性 取决 于 这 样 一 个 问题 : 训练 样 
本 if, 中 )} 是 否 包 含 足 够 的 信息 来 构建 具有 良好 推广 性 能 的 学 习 机 器 ? 对 这 个 问题 的 一 个 
答 存 于 使 用 由 Vapnik and Chervonenkis (1971) 所 开创 的 工具 。 特 别 是 ， 我 们 通过 将 监督 学 习 
问题 视 为 一 个 适 近 问题 矿 展 讨论 这 涉及 寻找 期 望 画 数 /(x) 的 最 好 逼近 函数 y = 
严 (X,W)。 
用 ZL(da,F(x,w)) 度 量 对 应 于 输入 向 量 x 的 期 望 响 应 & 和 由 学 习 贫 器 实际 产生 的 响应 
严 (x,w) 之 问 的 损失 或 差异 - 一 个 普遍 的 对 损失 L(d, PK,w)) 的 定义 是 二 次 损失 函数 ， 它 定 
义 为 d= 扎 g) 和 通 近 F(x,w) 之 问 距 离 的 平方 ， 表 示 为 ( 
(ad,P(KW)) = 《本 -OK W) (2.71) 
式 (2.64) 的 距离 平方 是 对 Ze , EC(x:w) ) 的 总 体 -平均 扩展 ， 其 平均 在 所 有 样 例 对 (x,d) 之 上 
计算 
有 关 统 计 学 习 理 论 的 大 部 分 文献 都 是 处 理 特定 的 损失 。 这 里 讨论 的 统计 学 习 埋 论 的 重要 
一 点 是 它 不 严格 依赖 于 损失 函数 Lad,#(x,w)) 的 形式 ， 在 本 节 后 面 我 们 将 限制 讨论 具体 的 
损失 函数 。 
损失 的 期 望 值 由 风险 泛 函 


R(w]) = [Liae(xw)aFxeo(xyd) (2.72) 


定义 ， 其 中 积分 是 对 样 俩 对 (x, d) 的 所 有 可 能 值 进行 的 多 重 积分 。 监 督学 习 的 目标 是 最 小 化 
台 近 函数 | P(x,w) ,wEW | 之 上 的 风险 泛 兽 RCw)。 然而， 对 风险 泛 函 R(w) 的 求 值 是 复杂 
的 ， 因 为 联合 票 积 分 布 函数 Rs(x,d) 通 常 是 未知 的 。 在 监督 学 习 中 ， 惧 一 能 够 获取 的 信息 
被 包含 在 训练 数据 集 g 中 。 为 了 克服 这 一 数学 上 的 困难 ， 我 们 采用 经 验 风险 最 小 化 归纳 原则 
《Vapnik ,1982 ) 。 这 一 原则 完全 依赖 于 训练 数据 集 5 的 可 用 性 ， 这 使 得 它 非常 适合 于 神经 网 络 
的 设计 原理 。 


一 些 基本 定义 


在 继续 讨论 之 前 ,我 们 暂 离 主题 简要 介绍 一 些 将 要 在 后 面 的 讨论 中 使 用 的 基本 定义 。 
依 概 率 收 笃 ” 攻 虑 随机 变 贡 序列 ,az ，……,av 。 如 果 对 任意 8$> 0， 概 率 关 系 


P(Iww-ml>a0 当 六 mm (2.73) 
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成 立 ， 意 味 这 - 随机 变 生 序列 依 概 率 收 仇 到 随机 变 基 mo。 
上 确 界 和 下 确 界 ” 岁 天 为 sup 台 的 非 空 的 标量 集合 中 的 上 确 输 定义 为 这 样 的 最 小 标量 *， 
对 于 所 有 7E 踢 ， 有 xz y。 如 果 没 有 这 样 的 标量 存在 ， 我 们 说 非 空 集合 四 的 上 确 界 是 “。 类 
似 地 ， 集 合 吕 的 下 确 界 ， 用 台 蝇 表 示 ， 被 定义 为 这 样 的 最 大 标量 x， 对 于 所 有 y 扣 中 有 x 二 
ye。 如 果 这 伴 的 标 基 不 存在 ， 我 们 说 非 空 集 合 弛 的 下 确 界 为 - ev 
经 验 风险 泛 昌 ”给 定 训 练 样本 9 = 1(x, , 友 ) 忆 ，， 经 验 风险 泛 丽 用 损失 函数 志 d,AGx ， 
WwW)) 定 义 为 





Rs = 十 交 dsPGom) C.74) 


严格 -一致 性“ 考 讶 函数 Fa,A(g,w) ) 的 集合 中，7Kd， Ptxvw)) 的 基本 分 布 由 联合 困 各 
分 布 卫 数 本 sx, d) 定 义 ， 令 和 r(e) 为 这 一 函数 集合 的 任意 非 空子 集 ， 使 得 
Wi(e) = 开 js) >o 《2.75) 
其 中 ceE( - wm ，+ om)。 称 经 验 风险 泛 库 是 严格 ( 非 平 几 ) 一 致 的 ， 如 果 对 任意 子 集 Yr(e) ， 下 
面 的 依 概 率 收 贷 性 成 六 
inf Rao(w) 全 inf RCw)， 当 N-w (2.76) 
WEE 芭 Te)》 ww 生生 Le) 
有 了 这 些 定义 ， 我 们 可 以 继续 讨论 Yapnik 的 统计 学 习 理 论 。 
扰 验 风险 最 小 化 原则 


经 验 风 险 最 小 化 原则 的 基本 总 想 就 是 处 理 式 (2.74) 定 义 的 经 验 风 险 泛 函 Re(w)。 这 一 
新 的 泛 丽 与 式 (2.72) 的 风险 泛 函 的 不 同 之 处 在 于 两 个 期 望 方式 ， 

1. 它 不 显 式 地 依赖 未 知 的 分 布 函数 Px,o(x,c)- 

2. 理论 上 ， 它 能 对 权 值 向 量 w 基 小 化 。 

令 wop 和 (wem ) 表 示 最 小 化 式 (2.74) 中 的 经 验 风险 泛 郴 Reo(w) 的 权 值 疝 晤 和 对 应 的 
冉 射 。 类 似 地 ， 令 w 和 Fwo) 表 示 最 小 化 式 (2.72) 中 的 实际 商 险 泛 函 民 (w) 的 权 信 向 量 和 
对 应 的 映射 。we 和 w.。 都 属于 权 值 空间 %W 。 我 们 现在 必须 考虑 的 问题 是 当 用 六 (w,) 和 届 
(we) 癌 的 差 拭 度 量 时 ， 近 似 陕 射 F(x, wo) 与 期 望 映 射 PCx,w。) 相 "接近 "的 条 件 。 

对 某 一 固定 四 = WwW” ， 风 险 泛 ROWw” ) 决 定 了 如 下 定义 的 随机 变 基 的 数学 期 望 ; 

IF = 20dFCxWY)) (2.77) 
相反 ， 经 验 风险 泛 函 Row ) 是 随机 变量 2。- 的 经 验 (算术 ) 平 均值 。 根 据 概率 论 的 主要 理 
论 之 一 的 大 数 定律 ， 在 一 般 情形 下 ， 我 们 发 现 当 训练 样本 9 无 穷 大 时 ， 随 机 变量 Z, 的 经 验 
均值 站 敛 于 它 的 期 望 值 。 这 一 事实 为 使 用 经 验 风 险 省 函 Re (w) 来 代替 风险 泛 两 丸 ( ww) 提供 
了 理论 和 证据 。 然 而 ， 正 基 由 于 Zw 的 经 验 均 值 收 伍 于 它 的 期 望 佣 ， 就 没有 理由 指望 最 小 化 
经 验 风 险 泛 丽 Reo(w) 的 权 值 向 量 wo。 间 样 会 最 小 化 风险 证 画 R(w)。 

我 们 可 以 按 下 述 的 方法 进行 ， 以 近似 的 方式 满足 这 一 需要 。 如 果 经 验 风 险 泛 丙 Ra (w) 
按 吧 以 其 一 精度 。 一 致 地 逼近 原始 风险 泛 表 ROw)， 那 么 Raw) 的 最 小 值 对 R(w) 的 最 小 值 
的 偏离 不 超过 2e。 从 形式 上 说 ， 这 意味 着 我 们 必须 施加 一 个 严格 条 件 使 得 对 任何 wE 认 和 








党 习 过 程 四 
s>0, 概 率 关 系 
Psbp 1 RUW) -Raw) 1> ) -> 当 六 > ao {2.78) 
成 立 (Vapnik ,1982 ) 。 当 满足 式 (2.78) 时 ， 我 们 说 出 现 经 验 平均 风险 的 权 值 向 量 四 到 期 望 什 
的 一 致 收效 。 等 价 地 ， 如 果 对 任何 指定 的 精度 *， 我 们 能 对 某 "> 0 确定 不 等 式 


Psup 1 R(w) - Row) 1> e) < a (2.79) 
那么 ,结果 是 如 下 的 不 等 式 也 成 立 ; 
PORK ) - ROw) > 28) < (2.80) 


换 吉 之， 如 果 条 件 (2.79) 成 立 ， 那 么 至 少 以 概率 【- as， 最 小 化 经 验 风 险 泛 果 Re(w) 的 解 
FGxwem ) 给 出 的 实际 风险 RCwm) 与 真正 的 最 小 化 可 能 实际 风险 R(w, ) 的 偏差 不 会 超过 2e。 
确实 ， 条 件 (2.79) 意 味 着 如 下 的 两 个 不 等 式 以 概率 1 - c 同时 得 到 满足 (Yapnik,1982 ) : 
民 (Wa) 一 玉 (Ww) < 上 (2.81) 
Rootw)-Rw) <e (2.82) 
这 两 个 不 等 式 分 别 定义 了 真实 风险 和 经 验 风险 谤 函 在 ws= we 和 w= w, 的 差异 . 此 外 ， 巾 于 
We 和 到。 分别 为 ReCw) 和 玉 (w) 的 最 小 点 ， 于 是 有 





用 (we) 二 民 oofwo) (2.83) 
通过 将 不 等 式 (2.81) 利 (2.82) 相 如 ， 然 后 使 用 (2.83)， 我 们 可 以 重 写 不 等 式 
有 (wow) - 妨 (w,) < 2 《2.84) 


阅 样 ， 由 于 不 等 式 (2.81) 和 {2.82) 同 时 以 概率 (1 - om) 得 到 满足 ， 所 以 不 等 式 (2.84) 也 一 样 。 
我 们 也 可 以 表达 为 不 等 式 
RUwa) - 展 (wo) > 2 
以 概率 成立 ， 这 是 对 (2.80) 的 重 述 ， 
现在 ， 我 们 可 以 对 经 验 凤 险 最 小 化 原则 从 三 个 相互 联 系 的 部 分 做 一 个 形式 化 的 陈述 
《Vapn 这 ,1982,1998) 
1. 代替 风险 泛 图 ROw) ， 构 建 经 验 网 民 Te 
ea(w) = 性 是 交 4sPtenm) 
9 并 2 
令 wm 表示 在 权 值 空间 % 上 最 小 化 经 验 风 险 泛 丽 的 权 值 向 量 。 那 么 只 要 经 验 风险 渤 
四 ON R(ww)， 当 肖 练 样本 的 数量 N 趋 于 无 穷 大 时 ，R(w) 
依 概率 收敛 到 实际 风险 R(w)，wE 尿 的 最 小 可 能 仁 。 
3. 由 
PS 昌 1RCw) - Ron (w) 1> e) 一 0 当 友 -> om 
定义 的 一 致 收 敏 性 是 经 验 风 险 最 小 化 原则 - - 致 性 的 充分 必要 条 件 。 
为 了 对 这 一 重要 原则 有 一 个 自然 解释 ， 我 们 给 出 如 下 分 析 。 在 学 习 机 器 开始 训练 之 前 ， 
所 有 通 近 函数 都 是 等 可能 的 。 随 着 学 习 机 器 测 练 的 进行 ， 与 训练 数据 集 ;(x , 4 ) 习 , 相符 的 
卷 些 遂 近 本 数 F(x,,w) 的 可 能 人 性 增加 了 。 当 训练 数据 集 的 数量 六 增长 时 ， 答 入 空间 因此 密 
集 起 来 ， 经 验 风 险 泛 本 Re。(w) 的 最 小 点 依 最 率 收 依 到 真实 风险 泛 函 RCw) 的 最 小 点 。 
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VC 维 


经 验 风 险 泛 函 Re(w) 到 实际 风险 泛 两 8&CwW) 的 一致 收 剑 性 理论 包括 收 伍 速 度 的 界 ， 它 
们 基于 称 为 Vapnik-Chervonenkis 维 ( 或 简称 VC 维 ) 的 重要 参数 ， 其 名 称 足 为 了 纪念 它 的 创立 者 
Vapnik 和 Cheronenkis。VC 维 是 对 由 学 习 机 器 实现 的 分 类 函数 族 的 容量 或 表示 能 力 的 测度 。 

为 了 以 适合 于 我 们 口 的 的 方式 描述 VC 维 的 概念 ， 考 虑 二 值 模式 分 类 问题 ， 为 此 期 望 响 
应 写作 deE 10,1!。 我 们 使 用 术语 二 分 (dichotomy) 来 指 二 值 分 类 画 数 或 判定 规则 。 令 8 表示 由 
学 习 机 器 实现 的 一 分 的 总 体 ， 即 





要 = JP,wj:wE 人 ,PP: 民 族 一 10.1| (2.85) 
令 8 表 示 输 入 向 量 的 严 - 维 空间 % 中 的 六 个 点 的 集合 ， 邵 
当 闪 扩 癌 汪 En (2.86) 
一 个 由 学 习 机 器 实现 的 二 分 将 多 分 割 为 两 个 不 相交 的 子 集 史 和 史 ， 使 得 我 们 有 
0, 对 xE 史 
下 (KW) = 人 (2.87) 


令 录 (人 凶 ) 表 示 能 由 学 习 机 器 实现 的 不 同 二 分 的 数量 ，As (电表 示 在 所 有 1 于 1 = 工 的 区 上 

Ar ( 思 ) 的 最 大 值 ， 其 中 | 于 1 是 了 的 元 素 的 数量 。 我 们 说 了 被 耶 分 获 ， 如 果 如 (于 ) = 28 ， 即 如 

果 吕 的 所 有 的 二 分 痢 能 被 8 中 的 丽 数 所 产生 。 和 你 人 人 全 

例 2.1 图 2.23 显 丽 了 包含 4 个 点 国 ， 加 ， 

和 友 的 一 个 二 维 输 和 空间 名 。 图 中 所 指示 的 

函数 就 和 丙 的 判定 边界 分 别 对 应 于 正确 的 类 国有 

(假设 ) 0 和 1。 从 图 2-23 中 ， 我 们 看 出 函数 天 后 RN 

导出 二 分 < 
= | 锦 = |,, 鸭 员 = | 一 

另 一 方面 ,函数 户 导出 二 分 | 
= | 钢 = | = 和 

对 于 包含 4 个 点 的 集合 7， 基 191= 4。 从 而 本 ws 

45z(9) =24 = 16 






































斑 
回 到 式 (2.85) 中 的 二 分 总 体 罗 及 式 (2.86) 中 的 对 应 点 集 于 所 勾 面 的 一 般 讨 论 ， 我 们 现在 
可 以 正式 地 定义 VC 维 如 下 (Vapnik and Chervonenkis, 1971; Keams and Vazirani,1994;Vidyasagar， 
1997;Vapnik,1998): 
二 分 总 体 世 的 VC 维 是 被 路 所 分 散 的 最 大 全 合 乞 的 基数 。 
换言之 .多 的 VC 维 ( 写 作 YCdim( 多 )) 是 使 Ar (W) = 2" 的 最 大 W。 用 更 熟悉 的 话说 ， 咏 
类 冰 数 集 {F(x,w)，wE?%ri 的 VC 维 是 能 被 机 器 学 习 的 训练 样本 的 最 大 数量 ， 这 种 学 习 对 于 


分 类 函数 所 有 可 能 的 二 分 标记 是 无 错误 的 。 
例 2,2 ”考虑 输入 向 量 的 mm 维 空间 % 中 的 一 个 简单 判定 规则 ， 它 由 
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可:y = COw + DB) (2.88) [55] 








描述 ,其 中 x 是 .个 普 维 权 值 向 量 ，5 是 偏 填 。 激 活 函 数 是 一 个 网 值 丽 数 ， 
人 
和 f <0 
式 (2.88) 中 的 判定 规则 的 VC 维 给 出 如 下 ， 
VCdim( 部 ) = 才 + 1 (2.89) 


为 了 说 明 这 一 结论 . 考虑 图 2-24 中 所 描绘 的 一 维 输入 空间 ( 即 m = 2) 的 情况 。 在 图 2-24a 
中 ， 我 们 有 克 ， 玉 和 鸭 三 个 点 。 对 这 三 个 点 的 三 种 可 能 标记 包括 在 图 2-24a 中 ， 从 中 我 们 
很 容易 看 到 最 多 二 条 线 就 能 分 散 这 些 点 。 在 图 2-24b 中 ， 我 们 有 点 而 ， 叉 ， 丙 和 国 ， 眠 到 
和 标记 为 0 点 & 和 xn 标记 为 ]。 可 是 这 一 次 ， 我 们 看 到 点 次 和 z 不 能 用 一 条 直线 与 点 
史 和 次 中 分 散 开 来 。 式 (2.88) 中 所 描述 的 m = 2 判定 规则 的 VC 维 因此 为 3， 这 是 与 式 
(2.89) 相 符 的 。 
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图 2-24 例 2.2 的 一 对 两 维 数 据 分 布 


例 2.3 用 VC 维 来 度量 分 类 (指示 器 ) 函 数 集 的 容量 ， 我 们 也 许可 能 期 望 带 有 很 多 自由 
参数 的 学 习 机 器 会 有 高 的 VC 维 ， 而 带 有 少数 的 自由 参数 的 学 习 机 器 会 有 低 的 VC 维 。 我 们 
现在 举 一 个 这 一 说 法 的 反例 C 。 

考虑 只 有 一 个 参数 的 指示 函数 族 ， 定 义 如 下 

Kx,a) = sgn(sin(axz))、 azE 民 
其 中 曙 (. ) 是 符 导 函数 。 假 设 我 们 选择 任意 数 w， 需 要 做 的 是 找到 能 被 分 散 的 N 个 点 。 这 
一 要 求 通过 选择 





站 = 1103， 12 
而 被 函数 集 F(x ,a) 所 满足 。 为 了 将 这 些 数据 分 成 由 序 询 

0 [ 吧 
所 确定 的 两 类 ， 我 们 根据 公式 


来 选择 参数 。 就 足够 了 。 这 样 我 们 得 出 结论 ， 带 有 单一 自由 参数 e 的 指示 函数 族 /x,a) 的 
VC 维 是 无 穷 的 。 
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VC 维 的 重要 性 及 其 估计 


VC 维 是 一 个 与 儿 何 概念 的 维 没有 关系 的 纯粹 组 合 概念 。 它 在 统计 学 习 理论 中 扮演 着 一 
个 中 心 的 角色 ， 这 将 在 后 面 两 小 节 提 供 的 材料 中 看 出 来 。 从 设计 的 观点 看 ，YC 维 也 是 重要 
的 。 粗 略 地 说， 为 了 可 靠 地 学 习 一 个 类 所 需要 的 样 不 的 数量 正比 于 那个 类 的 YC 维 。 因 此 ， 
对 VC 维 的 佑 计 需 要 首先 关注 。 

在 一 些 情 况 下 ，YVC 维 由 神经 网 络 的 旧 由 参数 决定 。 然 而 在 大 多 数 实际 情况 下 ， 很 难 通 
过 分 析 的 手段 计算 VC 维 。 虽 然 如 此 ， 神 经 网 络 的 YC 维 的 界 经 常 是 容易 处 理 的 。 这 时 ， 下 
面 的 两 个 结论 具有 特殊 意义 ， 


1 令 N 表 未 由 神经 元 构成 的 任意 前 错 网 络 ， 阅 值 (Heaviside) 激 活 函 数 为 
1，Y 30 


8 [ < 0 
Wi 的 VC 维 为 D( 久 log 外)， 其 中 多 是 网 络 中 自由 参数 的 总 数 。 
这 第 一 个 结论 归功 十 Cover( 1968) 和 Banm and Haussler( 1989)。 


2. 令 N 表 未 一 个 多 层 前 镇 网 络 ， 其 神经 元 使 用 一 个 sigmoid 激活 函 数 


去 起 
W 的 VC 维 为 D( 迪 )， 其 中 钱 是 网 络 中 自由 参数 的 总 教 
这 第 二 条 结论 归功 于 Koiran and Sontag(1996)。 他 们 得 出 这 一 结论 是 通过 首先 证 明 包 含 两 类 
神经 元 (一 类 是 线性 的 ， 另 一 类 使 用 阔 值 激活 函数 ) 的 网 络 已 有 了 正比 于 配 的 VC 维 。 这 是 个 
相当 令 人 惊异 的 结论 ， 央 为 像 在 例 2.2 中 看 到 的 那样 一 个 纯 线 性 网 络 有 正比 于 轴 的 VC 维 ， 而 
根据 第 一 个 结论 一 个 纯 阔 值 神 经 网 络 有 一 个 正比 于 及 log 币 的 VC 维 。 接 普 ， 通 过 求助 于 两 种 
近似 就 得 到 关于 sigmoid 神经 网 络 的 理想 结论 。 第 一 ， 具 有 阔 秆 激 活 函 数 的 神经 元 由 具有 人 突 
秋 权 值 的 sigmoid 式 神经 元 近似 。 第 二 ， 线 性 神经 元 由 具有 小 突 触 权 值 的 sigmid 神经 元 近似 。 
这 里 需 注意 的 重要 一 点 是 ， 多 层 前 馈 网 络 和 具有 有 限 的 YC 维 。 


学 习 机 器 推广 能 力 的 构造 性 自由 分 布 界 


讨论 进行 到 这 里 ， 我 们 发 现 考虑 二 值 模式 分 类 的 具体 情况 是 有 益 的 。 这 种 分 类 的 期 望 响 
应 定义 为 dE 10,1|。 相 应 的 损失 函数 只 有 如 下 两 个 可 能 值 : 


oo) =- 




















0， 若 F(x,w) = 也 
LaF(Gxw)) = 位 上 他 (2.90) 
在 这 些 条 件 下 ， 分 别 在 式 (2.72) 和 (2.74) 中 定义 的 风险 泛 函 总 (w) 和 经 验 风 险 泛 画 Refw) 得 


到 如 下 解释 : 
。 风险 泛 枉 忍 (W) 是 分 类 错误 的 概率 ( 即 误 益 率 ) 表示 为 P(w)。 
* 经 验 风 险 泛 表 及 ee(w) 是 训练 误差 ( 即 训练 阶 段 发 生 错误 的 频率 )， 表 示 为 v(mw)- 
现在 ， 根 据 大 数 定律 ( Gray & Davisson,1986 )， 一 个 事件 发 生 的 经 验 频率 几乎 一 定 收 敏 于 
那 一 事件 的 实际 概率 ， 只 区 试 验 (假设 是 独立 同 分 布 的 ) 的 数目 趋 于 无 穷 大 。 在 这 里 过 论 的 情 
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况 下 ， 这 一 结论 意味 着 对 任何 权 值 向 量 w， 它 不 依赖 于 训练 集 ， 以 及 对 任何 精度 s> 0， 下 面 
条 件 成 立 : 
PIIP(W) -5(w) 1>e 一 0 当 交 一 o 《2.91)》 
其 中 ， 站 是 怕 练 集 的 大 小 。 然 而 ， 请 注意 ， 条 件 (2.91) 并 不 意味 普 最 小 化 训练 误差 *(w) 的 
分 类 规则 ( 即 一 个 特定 的 权 值 向 量 w) 也 会 最 小 化 分 类 误 净 概率 P(w)。 对 于 一 个 具有 充分 天 
的 数量 A 的 训练 集 来 说 ， 以 w) 与 P(w) 的 接近 服从 一 个 更 强 的 条 件 ， 它 规定 下 而 的 条 件 邓 
任何 > 0 都 成 立 (Vapnik ,1982 ) : 
PCsup 1Pw) -vvw)1>s) 一 0 当 闪 一 《2.92》 
在 这 种 情况 下 ， 我 们 就 说 训练 误差 频率 到 v(w) = P(w) 的 概率 一 致 收效 。 
YC 维 的 概念 在 一 致 收 伍 的 速度 上 提供 了 一 个 界 。 特 别 ， 对 于 YC 维 为 疡 的 分 类 函数 集 ， 
卜 面 的 不 等 式 成 立 (Yapnik,1982 ,1998) : 
2 


Papi PC -ve <[ 融 ) ep(-ew) (2.99) 


其 中 六 是 训练 样本 的 大 小 ，。 是 自然 对 数 的 底 。 为 了 获得 一 致 收敛 性 我 们 希望 不等式 (2.93》 
的 右边 对 于 大 W 会 变 小 。 因 子 exp( - eA) 在 这 一 方面 是 有 帮助 的 ， 因 为 它 随 郑 w 的 上 升 而 
指数 下 降 。 剩 下 的 因子 (2eN/j) 代 胡 函数 族 字 = | PCx,w);wE 人 yi 的 增长 函数 As (站 当 
?zj 1 时 的 界 ， 这 由 Sauer 引 理 ' 得 到 。 只 要 这 一 责 数 不 紫 增长 太 快 ， 右 边 会 随 着 W 是 于 
无 穷 大 而 趋 于 零 ; 旭 昌 VC 维 是 有 限 的 ， 这 一 要 求 就 得 到 满足 。 换 言 之 ， 有 限 的 YC 维 是 
经 验 风险 最 小 化 原则 的 一 致 收敛 性 的 充分 必要 条 件 。 如 果 输 人 空间 # 有 有 限 的 基数 ， 任 何 二 
分 标记 族 包 都 会 有 关于 多 的 有 限 YC 维 ， 虽 然 着 命题 并 不 一定 成 立 。 
令 胡 示 事 件 








sup PC) ->(w) ie 
发 生 的 福 率 。 那 么 ， 以 概率 1 - s， 我 们 可 以 赔 对 所 有 权 值 向 攻 wE 人， 下 面 的 不 等 式 成 立 : 





PUW) < xx(W) + (2.94) 
使 用 式 (2.93) 中 描述 的 界 和 概率 c 的 定义 我们 可 以 置 
< (2 oo(- eN) (2.0%5) 


令 s(w,hsa) 表 示 满 足 式 (2.95) 的 特殊 值 。 由 此 ， 我 们 很 容易 得 到 下 面 的 重要 结论 (Vapnik， 
1992) 





广 -一 
aa = 忆 直 [ll( 委 ] + 下 -es (2.96) 
我 们 称 @(X, 太 ,ao) 为 置信 区 间 ， 其 值 取决 于 训练 样本 的 天 小 六 以 及 VC 维 疡 和 概率 ao 
式 (2.93) 中 以 = skCw,i,a) 描 述 的 界 在 最 坏 的 情况 P(w) = 1/2 下 获得 ， 但 不 幸 的 是 并 
非 对 小 的 PCw) 成 立 ， 而 这 是 实际 中 感 兴趣 的 情况 .对 于 小 的 P(w)， 通 过 考虑 如 下 修改 不 
等 式 (2.93) 可 获得 更 有 用 的 界 ( Vapnik ,1982 ,1998) ; 
PCw) -CCw) 1 2eN 二 
Ps 于 和 > < { 玖 ) em 人 - ) (2.97) 
在 文献 中 ， 对 式 (2.97) 中 的 洽 报 导 的 不 同 结果 ， 取 决 于 使 用 不 等 式 的 哪个 特定 形式 来 推导 。 
不 过 ， 它 们 都 有 一 个 相似 的 形式 。 从 (2.97) 推 出 ， 用 概率 1 - ， 并 且 同 时 对 于 所 有 wE%y 有 
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064 用 2 莫 





(Yapnik,1992, 1998 ) 

P(mW) s 2CW) +ECN asu) (2.98) 
其 中 6 (AN hasy) 是 -个 新 的 置信 区 间 ， 它 是 用 前 一 个 填 信 区 间 es(w ,ao 来 定义 的 ， 如 下 
《参看 习题 2.25)， 





2 ww) 
Van = 刘 (Ya 人 1 (2.9) 
这 第 二 个 置信 区 问 取 决 于 训练 误差 v(w)。 对 于 *(w) =0， 它 归 为 特殊 形式 
CN,Pia:0) = 48(Npa) (2.100) 


我 们 现在 可 以 总 结 一 下 已 经 为 一 致 收敛 速度 推导 出 的 两 个 界 ; 
1. 一 般 情况 下， 我 们 有 如 下 一 致 收 伍 速度 的 界 ; 

P(W) < v(w) TECN.Rasb) 
其 中 四 (Way 如 式 (2. 色 ) 中 的 定义 。 
2, 对 于 接近 于 0 的 小 的 训练 误差 wx(w)， 我 们 有 

P(w) < 5(w) + 4 oa) 
它 为 真实 情况 中 的 学 习 提供 了 一 个 相当 精确 的 界 。 
3. 对 于 接近 于 1 的 大 训练 误 益 *(w) ， 我 们 有 界 

PUw) < VCw) + 6( AN 下 oa 

















结构 风险 最 小 化 


训练 误差 是 具有 菜 一 权 值 向 量 的 学 习 机 器 在 训练 阶段 所 犯错 误 的 频率 。 相 似 地 ， 泛 化 误 
差 被 定义 为 当 用 机 器 以 前 没有 见 过 的 样本 测试 它 时 所 犯错 误 的 频率 。 这 里 假设 测试 数据 
从 与 训练 数据 相间 的 总 体 抽 取得 到 的 。 令 这 两 种 演 差分 别 表 示 为 we (w) 和 ve (w)。 注 意 
ww(wW) 与 前 面 小 节 中 所 用 的 *(w) 相 同 ;那里 我 们 是 用 "(w) 来 简化 表示 法 。 令 下 为 分 类 函 
数 族 |F(x,w)j5wE 吵 | 关于 输入 空间 % 的 VC 维 。 那 么 ， 依 据 关 于 一 致 收敛 束 度 的 理论 ， 我 们 
可 以 说 以 概率 1 - ,对 于 训练 样本 的 数 医 N > 六 ,以 及 同时 对 所 有 的 分 类 函数 严 (x,mw) , 泛 
化 误差 wee(w) 比 保证 风险 小 ， 保 证 风险 定义 担保 风险 ( 绑 定 广义 误差 
为 两 个 竞争 项 的 和 (Vapnik,1992,1998) 亏 
van( 有 ) = va(wW) + (Rosa ) 
(2.101) 



































其 中 置信 区 间 s (Na ,was) 本 身 由 式 (2.99) 。 误 半 旺 信 区 间 
定义 。 对 于 固定 数量 的 训练 样本 #， 训 练 误 
差 随 着 容量 或 VC 维 上 的 增加 而 单调 递减 ， 训练 误 关 
而 置信 区 间 单 调 递 增 。 因 此 ， 保 证 风险 和 泛 














化 误差 都 经 历 最 小 值 。 这 些 趋势 在 图 2-25 中 





0 YVYC 维 ,六 
以 普通 的 方式 展示 出 来 。 在 达到 最 小 点 之 
前 ， 机 器 容量 对 于 训练 细节 的 数量 是 太 小 了 ， SGNSE 
在 这 个 意义 上 ,说 学 习 问 题 是 过 定 的 图 2-25 训练 误差 、 置 信 区 间 和 


《overdetermined)。 超 过 最 小 点 后 ， 学 习 问题 是 扯 保 风险 之 问 的 关系 图 示 
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入 定 的 ， 因 为 机 器 容 明 对 于 训练 数据 是 太 大 了 了 。 

所 以 、 解 决 监督 学 习 问 题 的 挑战 就 是 通过 使 机 器 容量 与 用 于 目前 问题 的 训练 数据 的 有 效 
数 生 和 柑 匹 号。 结构 风险 最 小 化 方法 通过 使 学 习 机 器 的 VC 维 成 为 一 个 控制 变量 来 提供 一 个 归 
纳 过 程 以 达到 上 述 月 标 (Vapnik ,1992,1998 )。 具 体 地 说 ， 考 虑 模式 分 类 器 的 集合 | 下 (xx，w); 
WE 和 儿 1， 并 定义 严 个 这 样机 器 的 凡 套 结构 
可 = | 丈 (,W) 下 后 站 = 1 2，…, 灵 (2.102) 
使 得 我 们 有 (参看 图 2-.25) 














久 C Z CC …C 节 ， (2.103) 
其 中 符号 C 意 指 “ 包 含 于 "。 相 应 地 ， 各 个 模式 分 类 器 的 VC 维 满 足 条 件 
和 (2.104) 


这 意味 着 每 个 民 式 分 类 器 的 YC 维 是 有 限 的 。 所 以 ， 结 构 风 险 最 小 化 方法 可 如 下 进行 : 

。 对 每 个 模式 分 类 器 ， 最 小 化 经 验 风 险 { 即 训练 误差)。 

” 确定 具有 最 小 保证 风险 的 模式 分 类 器 8  ; 这 一 特 钱 机器 提供 相 开 竞争 的 训练 误差 

〈 即 对 训练 数据 近似 的 质量 ) 和 喃 信 区 间 ( 即 逼近 函数 的 复杂 性 ) 之 间 的 最 好 的 折 训 。 

我 们 的 日 村 就 是 找到 一 个 阅 络 结构 ， 使 得 能 以 训练 误差 最 小 可 能 增加 为 代价 来 换取 VC 
维 的 降低 。 

结构 风险 最 小 化 原则 能 以 多 种 方法 实现 。 例 如 ， 我 们 可 以 通过 改变 隐藏 神经 元 的 个 数 来 
改变 YC 维 ji。 特别 是 ， 我 们 评估 全 韦 接 的 多 层 前 合 阅 络 的 总 体 ， 该 网 络 中 一 个 隐藏 层 的 神 
经 元 数量 以 单调 的 方式 增加 。 结 拘 风 险 最 小 化 原则 表明 ,这 一 总 体 中 最 好 的 网 络 是 保证 风险 
最 小 的 那 一 个 。 

VC 维 不 仅 是 结构 风险 最 小 化 原则 的 核心 ， 而 且 也 是 一 个 称 为 可 能 近似 正确 (PAC) 的 同 
等 强大 的 学 习 模型 的 核心 在 下 节 讨 论 后 一 个 模型 ， 以 此 来 结束 本 章 处 理学 习 的 概率 和 统计 
方面 的 最 后 一 部 分 。 


2.15 可 能 近似 正确 的 学 习 模型 


可 能 近似 正确 (prmobabjy approximatejy corect,PAC ) 的 学 习 模型 早 功 于 Valiant(1984)。 顾 名 思 义 ， 
PAC 模型 为 二 倩 分 类 系统 中 的 学 习 和 推广 的 研究 提供 了 概率 框架 。 它 与 监督 学 习 紧 密 相关 。 

我 们 从 环境 时 人手 。 一 个 名 的 集合 称 为 祝 念 (concept)， 8 的 子 集 的 集合 称 为 概念 类 
《concept class) 。 一 个 概念 的 启 {example) 是 具有 一 个 类 标 得 的 论 域 中 的 一 个 对 象 (object) 。 如 
果 该 例 是 概念 的 一 个 成 员 ， 我 们 称 之 为 正 例 ( positive example); 如 果 该 对 象 不 是 概念 的 一 个 
成 员 ， 我 们 称 之 为 反例 (negative example)。 提 供 例 的 概念 称 作 上 有 目标 概念 。 对 于 .一 个 目标 概念 
<， 我 们 需要 长 度 为 w 的 训练 数据 的 序列 ， 由 
9 = jxe(x)l (2.105) 
雪 示 ， 其 中 可 能 包含 重复 的 例 。 例 x , 刀 ，…xw 是 根据 某 个 固定 但 未 知 的 概率 分 布 从 环境 吕 
中 随机 抽取 出 来 的 。 式 (2.105) 中 有 如 下 两 点 值得 注意 : 

， 月 标 概念 c(x, ) 被 当 作 从 8 到 ;0,1; 的 一 个 函数 ， 而 且 *(x, 假定 是 未 知 的 。 

* 这 些 例 通常 被 认为 是 统计 独立 的 ， 这 意味 着 任何 两 个 例 ( 比 如 说 区 和 大) 的 联合 概率 

密度 函数 等 于 它们 各 自 概率 密度 函数 的 积 。 
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在 我 们 前 述 术 话 的 上 下 文中 ， 环 境 吕 吕 以 等 同 于 神经 网 络 的 输入 空间 ， 旨 标 概念 等 网 本 
网 络 的 期 望 响 应 。 

从 环境 和 中 导出 的 概念 的 集合 条 作 概念 空间 世 。 例 如 ， 概 念 空间 可 能 会 包含 字母 A”， 
“ 字 革 B "等 等 。 这 些 概 念 中 的 每 一 个 可 能 以 不 同 的 编码 生成 一 个 正 例 集合 和 一 个 反例 集合 。 
然而 在 监督 学 习 的 框架 中 ,我 们 有 另 一 组 概念 。 一 个 学 习 机 器 典型 地 代表 一 个 函数 集 ， 其 中 
的 每 个 冰 数 对 应 一 个 特定 的 状态 ， 例如， 机 器 可 能 被 设计 成 识别 "字母 A,“ 池 母 了 等 。 出 
学 习 机 器 决定 的 所 有 函数 ( 即 慨 念 ) 的 集合 称 为 假设 空间 叶 。 假 设 空间 可 能 等 于 或 不 等 于 概念 
空间 。 在 某 种 意义 上 、 概 念 空间 和 假设 空间 的 含义 可 以 分 别 与 在 前 一 节 所 讨论 的 函数 扰 x) 和 
逼近 明 数 Ex,w) 相 类 比 。 

那么 ， 息 定 我 们 有 -个 理 标 概念 “(x)E 皇 ， 它 只 了 到 值 0 或 1。 我们 希望 由 一 个 神经 现 络 
来 学 会 这 一 概念 ， 这 个 神经 网 络 由 式 (2.105) 定 义 的 数据 集 了 训练 。 令 g(x)E 当 甫 示 与 这 个 
训练 得 到 的 和 输入 -和 输出 映射 相对 应 的 假设 。 评 价 学 习 过 程 是 否 成 功 的 方法 之 一 是 度量 假设 
&(x) 离 目标 慨 念 “(&) 有 上 多 接近 。 如 果 gxe(xz)， 自 然 有 误差 发 生 。 产 生 误 差 的 原因 是 我 
们 试图 以 一 个 函数 有 限 的 可 用 信息 为 基础 来 学 习 这 个 函数 。 训 练 误 益 的 概念 定义 为 
ys = 已 后 只 :8(X) 关 e(X)) (2.106) 
这 个 式 中 的 概 认 分 布 必需 与 用 于 生成 样本 的 分 布 一 样 - PAC 学 习 的 日 标 就 是 确保 ve 通常 是 
小 的 。 可 以 用 于 学 习 算 法 的 域 由 训练 样本 了 的 大 小 W 控制 。 另 外 ， 为 学 习 算法 提供 了 两 个 控 
制 参数 ， 

。 误差 参数 seE (0,1]。 这 个 参数 指定 在 假 没 g(x) 对 目标 概念 c(x) 的 一 个 良好 近似 中 







































































所 人 允许 的 误差 。 
* 置信 参数 8SE (0,1]。 这 第 二 个 参数 控制 构建 一 个 良好 逼近 的 可 能 性 。 
我 们 从 而 可 以 将 PAC 学 习 模 型 看 作 如 图 2-26 中 描 控制 参数 
绘 的 那样 。 人 
在 此 背景 下 我 们 现在 可 以 将 PAC 学 习 模 雹 正式 地 训练 衬 本 | 
陈述 如 下 ( Yaliant，1984; Keams and Vazirani，1994， (Go etajo，N| 学习 着 法 
Vidyasagar,1997); | 已 | 方 “ 假 疯 8 











令 玫 为 环境 史上 的 一 个 概念 类 。 我 们 称 概念 类 了 是 
PAC 可 学 习 的 如 果 存 在 一 个 算法 史 具 有 如 下 性 质 : 对 图 2 36 PRAC 学 习 模 型 的 柜 图 
于 每 一 个 目标 概念 cE 峙 ， 对 % 上 的 每 个 概率 分 布 ， 以 及 对 所 有 的 0<s< 12 和 0<8< 12， 如 
果 对 学 习 算法 内 提 供 训练 例 集 3 = 1(0x ec(x )) 局 以 及 参数 和 8， 那么 学 习 算 法 弛 至 少 以 概 
率 1-8 和 输出 一 个 误差 vse 的 很 设 5。 这 个 概率 姨 针对 从 集合 3 中 在 抽取 的 随机 样本 以 及 可 
能 存在 于 学 习 算 法 纤 中 的 任何 内 部 随机 性 而 取得 。 样 本 大 小 Y 必须 大 于 < 和 8 的 一 个 函数 。 
换言之 ， 只 要 训练 样本 5 的 大 小 六 忠 够 大 ， 在 神经 网 络 已 在 那个 数据 集 上 训练 过 之 后 
很 可 能 的 情况 是 ， 由 网 络 计算 的 输入 - 输出 映射 是 “近似 正确 的 "。 注 意 ， 虽 然 存 在 对 s 和 8 
的 依赖 ， 例 的 数 日 w 并 不 一 定 依赖 于 目标 概念 或 者 % 的 基本 概率 分 布 。 


样本 复杂 性 
在 PAC 学 习 理 论 中 ， 对 实际 意义 有 特别 影响 的 问题 是 样本 复杂 性 问题 。 这 一 问题 的 焦 
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点 在 于 震 要 提供 给 学 习 算 法 多 少 随 机 例 使 得 算法 能 够 获得 足够 的 信息 来 学 习 一 个 从 慨 念 类 季 
选 拼 的 未 知 晶 标 概念 “， 或 者 训练 集 7 的 天 小 应 该 多 太 ? 

翌 本 复杂 性 问 题 与 VC 维 审 芭 相关。 然而， 在 继续 过 论 这 … 阿 题 之 前 ， 我 们 由 要 定义 一 
个 相 雁 概念 的 含义 。 令 9 = 1(x ,) 信 为 任意 标签 例 集 ， 其 中 每 个 六 E 吕 ， 特 个 人 乓 (0,1。 
令 " 为 在 环境 之 上 的 目标 概念 。 那 么 ， 说 概念 “ 是 与 训练 集 扯 容 的 (或 者 等 价 地 ， 说 了 是 
与 相 容 的 )， 旭 果 对 所 有 1s< isN 我 们 有 ex) = 下 (Keams and Vazarini, 1994 )， 现 在 就 
PAC 学 习 而 言 ， 关 键 不 是 一 个 神经 网 络 能 计算 的 输入 - 输出 丽 数 集 的 数量 ， 而 是 网 络 的 VC 
维 、 更 精确 地 说 .我 们 有 分 成 两 部 分 给 出 的 一 个 重要 结 沦 (Riumer et al, ,1989* Anthony and 
Biggs,1992; Vidyasagar,1997) : 

考虑 具有 有 限 VC 维 太 关上 的 神经 网 络 。 

” 任何 用 于 这 全 神经 网 络 的 相 容 学 习 算法 是 PAC 学 习 算 法 。 

* 存在 常数 大， 使 得 对 于 任何 这 样 的 算法 ， 大 小 为 


六 = &( hog( 革 )+ te 人 二) (2.107) 
的 训练 业 是 足够 的 ， 其 中 上 为 误差 参数 和 全 为 置信 参数 。 


这 个 结果 的 普 忆 性 是 可 喜 的 ; 它 可 应 用 于 监督 学 习 过 程 而 不 管 使 用 什么 类 型 的 学 习 算 法 
和 用 于 生成 标签 例 的 基本 概率 分 布 。 让 是 这 一 结论 的 高 度 一 般 件 使 其 成 为 神经 网 络 研究 文献 
中 受到 广泛 研究 的 主题 。 将 基于 VC 维 测量 的 界限 预测 的 结果 与 试验 结果 比较 ， 揭 示 了 很 大 
的 差异 !* 。 在 一 写意 义 上 这 并 不 奇怪 ， 内 为 这 种 差异 仅仅 是 理论 测量 的 自由 与 分 布匹 关 的 、 
最 坏 情 况 的 本 质 反 映 ， 并 且 在 普通 情况 下 我 们 总 可 以 做 得 更 好 。 


计算 复杂 性 


在 PAC 学 习 中 ， 需要 着 重 关注 的 另 -个 问题 是 计算 复杂 性 问题 。 这 -问题 涉及 学 习 算 
法 的 计算 有 效 性 。 更 确切 地 说 ， 计 算 复 杂 性 是 在 给 定 具 有 有 限 大 小 w 的 分 类 标签 样 例 时 ， 
涉及 训练 神经 网 络 (学 习 机 器 ) 所 需 的 最 坏 情 况 下 的 “运行 时 间 ”。 

在 实际 情形 中 ,算法 的 运行 时 间 自 然 依赖 于 基本 运算 执行 的 速度 。 但 是 ， 从 理论 的 角度 
看 ， 目 的 是 找到 不 依 天 于 计算 所 用 设备 的 运行 时 间 的 定义 。 基 于 这 个 目的 ， 运 行 时 间 以 至 计 
算 复 杂 性 通常 从 执行 计算 所 需 的 操作 (加 法 、 乘 法 和 存储 ) 次 数 进行 测量 ， 

在 估算 学 习 算 法 的 计算 复杂 性 时 ， 我 们 想 知道 它 随 样 例 大 小 m{( 即 被 训练 的 神经 网 络 的 
输入 层 的 大 小 ) 是 如 何 变化 的 。 为 了 使 算法 在 这 种 环境 上 在 计算 上 是 高 效 的 ， 运 行 时 间 应 该 
对 于 某 一 固定 整数 r> 1 为 0(m)。 在 这 种 情况 下 ， 说 运行 时 间 是 随 m 多 项 式 增长 的 ， 算 法 
本 身 被 称 为 一 个 多 项 式 时 间 草 法 。 由 一 个 多 项 式 时间 算 法 执行 的 学 习 任 务 通常 被 认为 是 “和 容 
易 的 ”(Anthory and Biggs,1992)。 

需要 注意 的 另 一 参数 是 误差 参数 s。 唱 然 在 样本 复杂 性 的 情形 中 参数 = 是 固定 而 随意 的 ， 
在 估算 学 习 算法 的 计算 复杂 性 时 我 们 得 知道 它 随 = 如 何 变化 。 直观 上 ， 我 们 预料 当 s 减 小 时 
研究 中 的 学 习 竹 务 会 变 得 更 国难。 于 是 得 出 必须 对 算法 要 产生 一 个 可 能 近似 正确 输出 所 花 的 
时 间 施 加 -个 条 件 。 为 了 使 计算 是 高 效 的 ， 适 当 的 条 件 是 运行 时 间 为 He 多 项 式 的 。 

将 这 些 考 虑 综合 在 一 起 ， 我 们 可 以 对 计算 复杂 性 作出 如 下 形式 化 的 陈述 (Anithony and 
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Biggs ,1992 ) : 

一 个 学 习 苯 法 关于 误差 参数 s、 禅 人 鲍 天 小 下 和 评 练 集 的 大 小 六 是 计算 有 效 的 ， 如 果 它 的 
运行 时 间 是 关于 凡 多 项 式 的 ， 并 且 对 于 PAC 学 习 如 果 存 在 鼠 够 大 的 Wu(3,e) 是 关于 于 和 E- 1 
多 项 式 的 。 


2.16 小 结 和 讨论 


在 本 章 中 ， 我 们 从 神经 网 络 的 角度 讨论 了 与 学 习 过 程 的 许多 方面 相关 的 一 些 重 瞻 问题 。 
这 样 一 来 ， 就 为 本 书 余 下 部 分 中 很 多 内 容 打 下 了 基 侧 。 到 个 学 习 规 则 ， 即 误差 -修正 学 习 、 
基于 记忆 的 学 习 、Hebb 学 习 、 竞 争 学 习 利 Boltzmann 学 习 ， 足 神经 网 络 设计 的 基础 。 这 些 算 
法 中 一 些 需要 使 用 一 个 教师 ， 另 一 些 则 不 需要 。 重 要 一 点 是 这 些 规 则 使 我 们 在 能 力 和 普遍 性 
上 都 能 超出 线性 白 适 应 过 滤器 的 范围 。 

在 研究 监督 学 习 时 ， 一 个 重要 的 条 件 足 "教师 "， 它 能 够 在 误差 - 修正 学 习 中 发 止 错误 时 
为 网 络 输出 提供 精确 的 修正 ; 或 者 像 Boltzamann 学 习 那 样 将 网 络 白 由 运行 的 输入 和 输出 单元 
“钳制 "到 环境 。 这 两 种 模型 在 生物 组 织 中 都 是 不 可 能 的 。 生 物 组 织 既 没有 用 于 反 向 传播 误差 
修正 (在 多 层 前 僻 网 络 中 ) 的 精 傅 的 改 向 的 神经 连接 ， 也 不 会 有 强制 接受 外 部 行为 的 神经 方 
式 。 然 而 ， 正 如 第 3 章 和 第 7 章 所 展示 的 那 伴 ， 监 督学 习 已 经 确立 了 它 在 人 工 神经 网 络 设计 
中 作为 一 种 有 力 范例 的 地 位 -。 

相反 ， 自 组 织 (无 监督 ) 学 习 规则 (比如 Hebb 学 习 和 竞争 学 习 ) 是 受 神经 生物 学 的 思想 启 
发 的 。 但 是 ， 为 了 提高 我 们 对 重组 织 学 习 的 理解 ， 也 需 归 参看 Shannon 的 信息 论 以 获得 相关 
原 
形 

















思想 。 这 里 我 们 应 提 到 Linsker( 1988a,b) 的 最 太 互 信息 (maximum mutual information, Infomax) 原 
则 ， 如 同 在 通信 信道 中 的 信息 传输 那样 ， 它 为 自 组 织 神经 网 络 中 的 信息 处 理 提供 了 数学 的 
式 化 手段 。Infomax 原则 及 其 变 展 在 第 10 音 过 论 。 

如 果 不 提 到 达尔 文选 择 学 习 模 型 (Edelman ,1987; Reeke et al. ,1990) ， 对 学 习 方 法 的 讨论 
将 是 不 完全 的 。 选 择 在 进化 和 发 展 的 应 用 中 都 是 一 个 强 有 力 的 生物 学 原则 。 它 居于 已 经 透彻 
了 解 的 生物 认 知 系统 即 免疫 系统 的 核心 (Edelman,1973)。 达 和 尔 文 选择 学 习 模 型 基于 神经 团 选 
择 理论 。 它 预先 假定 ， 在 每 个 动物 生命 期 中 脑 神 经 系统 以 一 种 与 进化 中 的 自然 选择 性 质 类 似 
的 选择 方式 运作 。 根 据 这 一 理论 ， 神 经 系统 的 基本 操作 单元 不 是 单独 的 神经 元 ， 而 是 强 连 接 
的 神经 元 的 局 部 团 。 神 经 网 络 在 一 个 团 中 的 成 员 资 和 格 通过 神经 元 的 突 触 权 值 的 改变 而 变化 。 
神经 元 间 的 局 部 竞争 和 合作 对 形成 网 络 中 的 局 部 顺序 显然 是 必需 的 。 一 组 神经 团 称 为 指令 系 
统 (repertoire)。 一 个 指令 系统 的 组 由 于 神经 生长 的 随机 性 质 而 对 重 倒 但 相似 的 模式 有 最 好 的 
响应 。 一 个 或 更 多 的 神经 团 响应 每 个 输入 模式 ， 从 而 保证 了 对 可 能 很 重要 但 又 出 乎 意料 的 输 
人 模式 有 某 种 响应 。 达 尔 文选 择 学 习 与 在 神经 网 络 设 计 中 通常 使 用 的 学 习 算法 的 不 同 之 处 在 
于 它 假 设 设 计 了 很 多 子 网 络 ， 并 用 只 有 那些 有 期 望 响应 的 子 网 络 才 企 训 练 过 程 中 被 选择 。 

我 们 以 对 学 避 的 统计 和 概率 方面 的 某 些 评述 来 结束 这 里 的 讨论 。VC 维 已 经 成 为 统计 学 
习 理 论 中 的 核心 参数 。 它 对 结构 风险 最 小 化 和 学 习 的 可 能 近似 正确 (PAC) 模 型 都 是 基本 的 。 
VC 维 是 将 在 第 6 章 寺 论 的 所 背 支 持 向 量 机 基本 理论 的 组 成 部 分 。 在 第 7 章 ， 我 们 讨论 一 类 
基于 准 举 (boosting) 的 委员 会 (committee) 机 ， 其 理论 植 根 于 PAC 学 习 。 

当 我 们 继续 本 书 余 下 的 部 分 时 ， 会 有 很 多 情况 和 充分 的 理由 来 回顾 本 章 中 所 提供 的 关于 
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学 习 过 程 的 基础 的 内 容 - 
注 释 和 参考 文献 


[1] “算法 "(algorihm) 一 词 是 从 波斯 数学 家 Mohammed al-Kowirisimi 的 名 字 而 来 ， 他 生活 在 9 [Dog] 
世纪 并 且 被 认为 发 展 了 用 于 普通 十 进 数 的 如、 三 、 乘 、 除 的 分 步 规则 。 当 他 的 名 字 用 
拉 ] 文书 写 时 就 变 成 了 Algorsmus，Algorithm 就 是 这 样 衍 生出 来 的 (Harel ,1987)。 

[2] 大 量 文献 包含 了 最 近邻 规则 ， 参 看 Uasarathy(1991) 编 辑 的 论文 集 ， 这 本 书包 含 上 上 Fix anq 
Hodges(1951) 的 开创 性 工作 以 及 许多 其 他 关于 最 近邻 模式 分 类 技术 的 许多 重要 文章 。 

[3] 关于 Tebb 帘 触 的 详 述 ,包括 历史 评述 ， 和 参考 Brown et 引 . (1990) 及 Freegnac 和 Schulz 
(1994)。 另 外 的 综述 材料 可 参考 Cornstantine-Paton et 志 .(1990) 。 

[4 长 期 电位 一 Hebb 突 触 的 生理 学 证 据 
Hebb(1949) 为 我 们 提供 了 考虑 帘 触 记忆 机 制 的 方法 ， 但 是 近 四 分 之 一 世纪 过 去 后 他 的 
建议 才 获 得 实验 证 据 的 支持 ，1973 年 ，Bliss 和 Lomo 发 表 文 章 描述 了 在 脑 中 称 之 为 海 
马 区 中 的 激活 导致 突 触 政变 的 一 种 方式 。 他 们 对 进 人 这 个 结构 的 主 通 道 应 用 电 刺 激 的 
冲击 ， 同 时 记录 引起 帘 触 的 反应 、 当 他 们 确信 获得 反应 生物 形态 学 的 稳定 基线 特征 时 ， 
他 们 应 用 简短 的 高 频 冲击 训 练 。 而 当 他 们 总 结 测试 冲击 的 应 用 时 ， 他 们 发 现 响 应 的 振 
幅 要 大 得 多 .记忆 研究 人 员 最 感 兴趣 的 是 发 现 这 种 效果 可 以 持续 很 长 时 间 ， 他 们 称 这 
种 坝 锭 为 长 期 电位 (long-term potentiation ,LTP) 。 

现在 每 年 有 几 百 篇 关于 LTP 现象 的 论文 发 表 ， 我 们 知道 许多 它 的 固有 机 制 。 例 如 ， 
我 们 知道 电位 作用 被 限定 在 激活 通路 上 上。 我们 也 知道 LTP 表现 出 许多 联想 性 质 。 所 谓 
联想 性 质 我 们 是 指 况 时 落 牙 通路 间 的 相 巨 作用 。 在 特别 情况 下 ， 若 一 个 正常 情况 下 不 
会 导致 LIP 效果 的 莘 输 人 与 一 个 强 输入 配 邓 时 ， 则 弱 输 人 被 充电 。 这 之 所 以 被 称 为 联 
想 性 质 是 因为 它 和 学 习 系 统 的 联想 性 质 相 类 似 。 例 如 ， 在 Pavlov 条 件 反射 试验 中 ,一 
个 神经 ( 弱 ) 听 觉 刺 激 和 ` 个 强 (食物 ) 刺 激 配 对 ， 这 种 配对 产生 条 件 反射 的 - .种 形式 ， 
对 听觉 刺激 分 泌 十 液 ， 
在 这 个 领域 的 许多 试验 工作 集中 在 LTP 的 联想 性 质 . 支持 LIP 的 许多 突 触 利用 谷 

氨 酸 作为 神经 传导 器 。 但 是 ， 实 际 上 在 后 突 触 神经 元 中 有 许多 不 同 的 受 纳 器 响应 谷 氨 
酸 。 所 有 这 些 受 纳 器 有 不 辣 的 性 质 ， 供 我们 仅 考虑 其 中 的 两 种 性 质 、 主 要 的 罕 触 响应 
是 由 AMPA 受 纳 器 的 激活 导致 的 (这 些 受 纳 器 的 名 称 是 根据 它们 响应 好强 让 的 药物 的 名 
称 而 来 的 ， 租 它们 都 十 谷 氨 酸 受 纳 器 )。 当 在 一 个 LTP 实验 中 记录 一 个 响应 时 ， 它 基本 
上 是 由 于 AMPA 受 纳 器 的 激活 的 性 质 、 在 突 触 茹 活 后 .释放 谷 氨 酸 昌 和 后 突 触 膜 的 受 
纳 器 绑 定 。AMEA 受 纳 器 的 离 千 通道 部 分 张 开 ， 导 致 作为 突 钥 基本 响应 的 电流 。 

第 二 种 类 型 的 谷 氨 酸 受 纳 器 ， 即 NMDA 受 纳 器 ， 有 一 些 有 趣 的 性 质 。 和 NMDA 受 

纳 句 绑 定 的 谷 氨 酸 不 是 以 开启 相关 的 离子 通道 ， 遂 道 保 持 关 闭 志 到 突 触 活 牙 (包括 

AMPA 受 纳 器 ) 产 生 足 够 大 的 电压 盖 。 因此 ，AMPA 受 纳 器 为 化 学 依赖 的 ， 而 NMDA 受 

纳 器 同时 是 化 学 依 玉 和 电压 依赖 的 。 我 们 需 另 外 的 信息 看 清 这 个 差 漠 的 重要 性 。 和 和 

AMPA 受 纳 器 相关 联 的 宙 子 通道 和 纳 岗 子 的 运动 ( 它 产 生 突 般 电流 ) 联 系 。 和 NMDA 受 [这 | 

纳 器 相关 联 的 离子 通道 允许 钙 进 入 绍 胞 。 虽 然 钙 的 运动 也 会 影响 膜 电 流 ， 但 共 主 要 作 

用 是 作为 触发 信和 号， 触发 一 连 证 的 事件 ， 导 致 和 AMPA 受 纳 器 相关 联 的 响应 强度 的 持 
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怖 ?车 




















续 增 加 。 

现在 我 们 有 关于 Hebb 突 触 的 机 制 。NMDA 受 纳 器 要 求 前 突 触 活 暑 (释放 谷 氨 酸 ) 和 
后 突 触 活跃 。 这 种 情况 怎样 才能 正常 发 牛 ” 保持 足够 强 的 输入 就 可 以 了 。 因 而 当 我 们 
将 一 个 弱 输 入 和 一 个 强 输入 配对 ， 弱 输入 释放 它 的 谷 氨 酸 ， 而 强 输入 保证 有 足够 副 的 
电压 差 激 活 利 弱 突 触 相连 接 的 NMPA 受 纳 器 。 

虽然 Hebb 最 宁 的 建议 仅 限 于 单 向 学 习 规 则 ， 但 如 果 利 用 双向 学 习 规 则 ， 则 可 以 认 
为 神经 网 络 更 具有 灵活 性 ， 突 郭 权 值 撤 可 以 增加 又 可 以 减少 是 其 优势 。 令 人 放心 的 是 
知道 也 实验 证 据 支持 突 触 衰减 由 制 。 如 果 册 输 入 的 激活 不 伴随 强 输 人 的 激活 ， 突 触 
权 值 常常 被 减 弱 。 这 在 突 触 系统 的 低频 激活 的 响应 中 最 为 常见 ， 这 种 现象 称 之 为 长 其 
衰减 (Jong-term depression,LTD)。 也 有 一 些 证 据 表明 称 之 为 村 异 突 触 度 减 的 作用 。LTP 
限制 为 激活 输入 的 衰减 ， 而 奇异 突 触 衰减 则 为 非 激活 输入 。 
竞争 学 习 的 思想 可 追 湖 到 von der Malsbug(1973) 的 关于 条 纹 皮质 的 方向 敏感 神经 细胞 的 
自 组 织 ，Fukushima( 1975) 的 以 神经 认 知 机 著名 的 月 组 织 多 层 坟 经 网 络 ，Willshaw and von 
der Malsburg( 1976) 的 自 组 织 模型 神经 连接 结构 ， 以 及 Grmossberg{1972,1976a,.b) 的 自 适应 
模式 分 类 等 的 早期 上 作 。 并 有 只 有 重要 的 证 据 表明 竞争 学 习 在 脑 组 织 有 映射 结构 中 起 着 关 
键 作 用 (Durbin et 直 , ,1989) ， 最 近 Ambros-Ingerson et al.(1990) 的 实验 工作 提供 竞争 学 习 
的 进一步 生理 学 上 的 证 据 。 
如 图 2.4 所 示 ， 利 用 侧 抑 制 在 神经 生物 系统 很 流行 。 大 多 数 感 觉 组 织 ， 即 根 蒜 的 视 网 
获 ， 丁 蜗 及 皮肤 的 触觉 神经 ， 都 以 这 样 一 种 方式 组 织 ， 对 任何 给 定位 置 的 笛 激 都 在 周 
弹 神经 元 中 产生 抑制 (Arib,1989; Fischler and Firschein, 1987)。 在 人 类 感知 中 ,， 侧 抑制 
表现 在 一 种 称 之 为 马赫 带 (Mach band) 的 现象 中 ， 旺 赫 带 是 根据 物理 学 家 Emesl Mach 
(1865) 的 名 字 来 命名 的 。 例 如 ,如果 我 们 看 一 张 -- 半 加 一 半 白 的 纸 ， 即 使 它们 有 同样 
的 密度 ， 我 们 将 会 在 白 的 部 分 看 到 比 白 更 白 的 平行 于 边界 的 一 个 带 ， 在 黑 的 部 分 看 见 
黑 更 黑 的 平行 于 边界 的 一 个 带 。 马 款 带 不 是 物理 上 出 现 的 ， 而 是 视觉 上 的 幻觉 ， 代 
表 由 侧 抑制 的 差异 动作 引起 的 过 投射 或 从 投射。 
john von Neumann 深刻 认识 到 统计 吉 力 学 在 研究 计算 机 中 的 重要 性 。i949 年 他 在 hinois 
大 学 所 作 的 关于 《复杂 自动 机 的 理论 和 组 织 》 的 五 个 报告 的 第 三 个 中 很 好 地 说 明了 这 一 
点 。 在 他 关于 《信息 的 统计 理论 》 的 第 三 次 讲演 中 ，von Neumanmn 指出 : 热力 学 概念 也 许 
将 进入 新 的 信息 理论 。 有 一 些 强烈 的 迹象 显示 信息 类 似 于 丧 ， 并 用 灼 退化 过 程 和 信 
息 处 理 中 的 退化 过 程 是 平行 的 。 人 自如 没有 它 运行 的 环境 的 统计 特征 ， 你 是 不 能 定义 一 
个 自动 机 的 功能 或 效率 的 ， 正 如 在 利用 表征 热力 学 环境 的 统计 特征 时 --' 样 。 白 动机 环 
境 的 统计 变量 当然 比 标准 热力 学 的 温度 变量 复杂 ,但 它们 在 特征 上 相似 。 
看 来 术语 “增强 式 学 习 " 是 由 Minsky(1961) 在 他 的 早期 入 工 智能 研究 中 创造 的 ， 然 后 由 
Waltz and Fu(1965) 在 控制 论 中 独立 提出 。 但 是 “增强 式 " 的 基本 思想 在 心理 学 的 动物 学 
习 实验 侠 究 中 已 出 现 (Hampson,1990)。 在 这 个 背景 下 ， 帆 Thomdike 的 下 述 经 典 效 果 律 
可 以 表明 这 一 点 (Thomdike,1911,p244): 

对 于 同一 情况 作出 的 几 种 不 同 响应 ， 只 有 那些 伴随 或 接近 动物 满足 的 或 其 他 等 同 
的 东西 才 有 可 能 和 该 情况 更 加 紧密 的 联系 ， 这 样 当 它 重新 发 生 时 ， 它 们 将 更 有 可 能 发 
生 ; 其 他 的 那些 伴随 或 接近 使 动物 不 父 服 的 或 其 他 等 同 的 东西 ， 与 那 种 情形 的 联系 会 
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减弱 . 这 样 当 它 发 生 时 .它们 发 生 的 可 能 减少 。 满 足 或 不 每 服 的 程度 越 大 ， 丑 系 带 的 
增强 或 碱 弱 的 程度 就 研 强 。 

昌 然 ， 不 能 说 这 个 原理 提供 了 一 个 后 物 行为 的 完整 模型 ， 但 它 的 简单 性 利 普 道 意 
义 的 方法 使 之 成 为 增强 式 学 习 的 传统 方法 中 的 一 个 有 影响 的 学 习 规 则 ， 
设备 输出 是 典型 物理 变量 。 为 撑 制 设备 ,我们 需要 清楚 知道 这 个 变量 的 值 ， 即 我 们 必 
须 度 量 设 备 输出 。 用 于 度量-- 个 物理 变量 的 系统 称 为 感知 器 ， 因 而 更 准确 地 说 ， 图 
2-]3 的 方 框图 在 它 的 反馈 路 径 中 应 包括 一 个 感知 器 。 我 们 省 略 了 感知 器 ， 情 示 它 的 转 
移 画 数 假定 为 单位 的 。 

鸡 尾 消 会 现象 " 指 人 类 在 噪声 环境 中 挑选 和 跟踪 听觉 输入 源 的 显著 能 力 (Chery ,1953; 
Cherry and Jaylor,1954)。 这 种 能 力 表现 在 听觉 系统 所 完成 三 种 过 程 的 组 合 中 : 

分 密 输入 听觉 信 忆 被 分 制 到 单个 频道 ， 每 个 频道 提供 关于 听 者 环境 的 有 意义 的 信 
息 。 在 分 割 时 听 者 利用 的 所 有 启 示 中 空间 位 置 也 许 是 最 重要 的 ( Moray ,1959) 。 
注意 ”这 包括 听 者 集中 注意 在 一 个 频道 而 忽略 其 他 不 相关 频道 的 能 力 (Chery ,1953)。 
转换 “第 王 个 过 程 涉及 从 一 个 频道 转换 到 另 一 个 频道 的 能 力 ， 它 也 许 通 过 “开启 "和 输 
人 上 昕 觉 信 号 以 几 质 向 下 的 方式 凋 节 (Wood and Cowan,1995)。 

由 这 些 观点 可 导出 的 结论 是 输 人 听觉 信号 所 完成 的 处 理 确实 是 时 空 类 型 的 。 
设计 最 优 线性 滤波 器 问题 提供 了 线性 自 适 应 滤波 器 的 理 沦 框架 ， 这 个 问题 首先 由 
Kolmogprov( 1942) 提 出 并 旦 不 入 后 由 Wiener(1949) 独 立 解决。 

另 一 方面 ， 最 优 非 线 滤波 问题 的 形式 解 在 数学 上 是 不 能 解 的 。 但 是 在 50 年 代 ， 
7adeh(1953) ，Wiener 及 其 合作 者 (Wiener,1958) 作 了 大 量 出 色 的 工作 ， 曾 其 他 人 对 泪 清 
问题 的 性 质 作 了 许多 工作 。 

1954 年 Gaber 是 第 一 个 认识 到 非 线性 自 适应 滤波 器 妃 想 的 人 ， 并 且 随 后 在 他 的 合 
作者 帮助 下 建立 了 这 种 滤波 器 (Cabor et al. ,1960)、 基 本 上 Cahor 提出 了 绕 过 非 线性 自 
适 庶 浪 波 数学 困难 的 捷径 ， 通 过 学 习 优化 它 的 响应 构造 滤波 器 。 滤 波 器 输出 形式 上 可 
表示 为 




















Ty(a) = 六 xf) 十 忆 半 wrtostm) + 
其 中 xz(0)，x(1) -xz(N) 是 滤波 器 输 闪 的 采样 。 《这 个 多 项 式 现 在 称 之 为 Gabor- 
Kolmogorov 多 项 式 或 Volterra 级 教 :) 多 项 式 的 第 :项 表示 线性 滤波 器 ， 由 一 组 系数 | zw 
表征 。 第 二 项 由 一 弓 二 元 系数 ;to。,。i 才 征 ， 是 非 线 性 的 ; 这 项 包含 滤波 器 输 人 的 两 个 
样本 的 乘积 ， 依 次 类 排 可 得 高 阶 项 。 潍 波 器 的 系数 由 梯度 下 降 调 整 使 得 极 小 化 日 标 
(其 望 ) 响 应 d&( ) 和 实 让 波 器 输出 y(CW) 之 差 的 均 方 值 。 
式 (2.71) 中 的 代价 冰 数 !0d, ECGx,w)) 应 用 于 标量 d。 当 期 望 响 应 为 向 量具， 逼近 
函数 采用 后 其 值 形式 F(x,w)。 这 时 我 们 用 平方 欧 几 里 德 蝶 离 

Z(d,FCGX ww)) = ‖9 -Fw) 1 

作为 损失 函数 。 两 数 FF(' …) 为 它 的 变 元 的 向 晤 值 函数 。 
和 根据 Burges(1998)， 首 先 出 击 在 Vapnik(1995) 中 的 例 2.3 归功 于 下 .Levrin 和 本 S. 
Denkero 
线性 阔 值 单元 (感知 器 ) 均 成 的 前 馈 网 络 VC 维 数 的 上 界 由 Baum and Haussler( 1989) 获 
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得 . 随后 ，Maass(1993) 证 明 ， 对 于 这 类 网 络 ， 一 个 更 小 的 下 界 也 成 立 ， 其 数量 级 为 
多 log 岂 。 

sigmoidal 神经 网 络 的 VC 维 数 的 第 一 个 上 具 是 Macintyre and Sontag(1993) 捧 出 的 
随后 Koiran and Sontag(1996) 回 答 了 Maass(1993) 提 出 的 公开 问题 : 

“只 有 siamoid 激活 扼 数 so(y) = 1/(1 + e 7 ) 的 模拟 神经 网 络 的 VC 维 数 是 骆 以 可 灾 
参数 个 数 的 多 项 式 为 界 ?” 

Koiran 和 Sontag 在 他 们 1996 年 文章 中 明确 下 答 了 这 个 问题 ， 正 如 前 而 所 述 : 

Karpinski and Macintyre{1997) 也 明确 回答 了 这 个 问题 。 在 这 后 一 篇 文章 中 利用 基于 
微分 折 扑 的 复杂 方法 证 明了 模式 分 类 器 的 sigmoid 神经 网 络 的 VC 维 数 的 一 个 上 界 为 D 
《 迪 )。 这 个 上 界 和 Koinan 和 Sonuag( 1996) 导 出 的 下 界 之 问 有 较 大 的 差距 、Kampinski amd 
Macintyre( 1997) 猜 起 他 们 的 上 界 可 以 降低 ， 
Sauer 定 至 可 陈述 为 (Sauer,1972; Anihony and Biggs, 1992;Vidyasagar, 1997) : 

令 多 走 示 学 习 机 器 实现 的 二 分 总 体 ， 若 VCdim( 丈 ) = 六 ,下 月 限 且 大庆 1， 寺 么 
增长 医 数 Az (7) 的 界 为 (el/j)*， 其 中 e 为 白 然 对 数 的 底 ， 
在 这 个 注 帮 中 我 们 给 出 文献 中 报导 的 样本 复杂 人 性 和 相关 的 泛 化 问题 的 四 个 重要 研究 的 
总 结 。 

首先 ，Cohn and Tesauro(1992) 对 基于 VC 维 数 的 样本 复杂 性 失 作 为 模式 分 类 器 设 
计 工 其 的 实际 价值 给 出 详细 的 实验 会 究 、 特 别 是 ， 设 计 了 检验 神经 网 络 泛 化 能 力 和 
Vapnik 统计 学 习 理论 导出 的 与 分 布 无 关 的 最 坏 情 况 界 之 问 的 关系 的 试验 。 这 虫 葵 虑 的 
界 是 Vapnik(1982) 定 义 的 





























xu ol( Ang 六 (0 
其 中 ve 是 活化 误差 , 六 是 VC 维 数 ，” 中 训练 集 的 大 小 。Cohn 和 Tesauro 给 出 的 结果 
表明 平均 泛 化 能 力 比 式 (1) 预 测 的 好 得 多 、 

其 次 ，Holden and Niranjan(1995) 扩 展 了 Cohn 和 Tesaur 嘻 期 的 研究 ， 解 决 了 一 个 
相似 的 问题 。 人 有 二 个 重要 差别 需要 指出 : 

。 神经 网 络 所 做 的 所 有 实验 都 知道 VC 维 数 的 精确 结果 战 北 常 好 的 界 ; 

。 特别 考虑 了 所 用 的 学 习 算法 ; 

*。 实验 采用 现实 生活 中 的 数据 。 

虽然 报告 的 结果 发 现 提供 样本 复杂 性 预测 比 时 期 理论 提供 的 值 有 意义 得 多 ,但 是 
仍 由 许多 理论 缺陷 有 待 克 联 。 

第 三 ，Baum and Haussler( 1989) 报 告 了 训练 线性 阐 值 神经 元 的 单 层 前 馈 网 络 具有 
良好 泛 化 能 力 所 需 的 训练 样本 大 小 w。 假设 训练 集 从 任意 慨 率 分 布 函 数 选 择 ， 并 且 评 
价 泛 化 性 能 的 测试 样本 服从 相同 的 分 布 ， 那 么 ,根据 Baum 和 Haussler， 如 果 满 足以 下 
两 个 条 件 ， 网 络 几乎 肯定 提供 认 化 : 

(对 训练 集 产生 错误 的 次 数 小 于 ef2 

《2 训练 中 所 用 的 样本 数 A 为 


we> 0( 王 ogf 王 ) (2) 
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其 中 下 为 网 络 突 触 权 值 数目 。 式 (2) 提 供 了 与 分 布 无 关 的 最 坏 情况 下 w 的 界 。 这 里 ， 
所 需 训练 样本 的 实际 数目 和 式 (2 计 算 的 界 之 间 又 有 汪 个 巨大 的 差异 。 


最 后 ， 在 模式 分 类 任务 中 用 大 的 神经 网 络 时 ， 我 们 经 常 发 现 利用 比 Cohn and 
Tesaur(1992) 报 告 的 网 络 权 值 数 日 小 得 多 的 训练 样本 数目 表现 良好 ，Bartlett(1997) 讨 
论 这 个 问题 。 在 Bartlett 的 文章 中 证 明 ， 对 于 那 种 神经 网 络 基 有 良好 泛 化 而 突 触 权 值 
不 是 特别 大 的 任务 ， 是 由 权 值 的 大 小 而 不 是 权 值 数目 决定 网 络 的 泛 化 人 性能。 

















习题 
学 习 规则 


2.1 式 (2.3) 描 述 的 增 量 规则 和 式 (2.9) 描 述 的 Hebb 规则 代表 两 类 不 同学 习 方 法 。 列 出 


这 两 个 规则 相互 区 别 的 特征 。 





2.2 利用 答 止 从 输出 中 抽取 期 望 响 应 (目标 值 ), 再 用 反 -Hebb 规 则 (Mitehison ,1989) ,可 


以 实现 误差 修正 学 避 规 则 。 讨 论 误 盖 学 
习 的 这 种 解释 。 
2.3 图 2-27 表示 一 维 平面 数据 点 
集 。 一 部 分 数据 点 集 属于 类 %, 而 另 一 部 
分 数据 点 集 属于 类 @. 。 对 该 数据 集 构 造 
应 用 最 近邻 规则 产生 的 午 定 边界 。 
2.4 考虑 一 组 人 ， 把 他 们 关于 某 主 








x: 类 
:类 <2 





题 的 集体 意见 定义 为 每 个 成 员 各 自 意 见 
的 加 权 平 均 。 假 设 在 讨论 过 程 中 ,成 员 
的 意见 和 集体 意见 趋向 一 致 ， 则 他 的 意 
见 的 权利 增加 ， 另 一 方面 ， 如 果 成 员 总 
是 不 同意 集体 意见 ， 那 么 他 的 意见 的 权 
值 碱 小 。 这 样 加 权 形 式 等 价 于 正 反 馈 控 
制 ， 它 有 在 组 内 产生 一 致意 见 的 效果 
《Linsker,1988a) 。 


讨论 所 描述 的 情况 和 学 习 的 Hebb 假说 的 类 似 之 处 。 
2.5 一 个 Hebb 规则 的 广义 形式 可 描述 为 : 
Aaos(n) = aFC(m))C(o(a)) -Baos(a)FCye(n)) 








口 三 


其 中 5( 站 和 和 关 (m) 为 前 突 触 和 后 突 触 信号 ;天 (,) 和 6(, ) 为 它们 各 自 变 量 的 函数 ;As (n) 
为 在 时 刻 ”时 突 触 权 值 关于 信 叶 (nm) 和 六 (nm) 的 响应 产生 的 改变 量 。 寻 找 (a) 平 衡 点 和 





《b) 这 个 规则 定义 的 最 大 衰减 。 


2.6 一 个 幅度 为 1 的 输 人 信和 号 重复 应 用 于 初 值 为 在 的 突 触 连接 。 计 算 利 用 下 面 两 个 规 





则 时 罕 触 权 值 的 坊 差 ; 


(在 式 (2.9) 中 描述 的 Hebb 规则 的 简单 形式 ， 假 设 学 习 率 参数 1= 0.1。 


(b) 在 式 (2.10) 中 描述 的 协 方差 规则 ， 假 设 前 突 触 活动 = 0 而 后 突 触 活动 了 = 1.0。 
2.7 在 式 (2.9) 中 描述 的 Hebb 罕 触 涉及 使 用 正 反馈 。 验 证 这 个 陈述 的 正确 性 。 
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2.8 考虑 式 (2.10) 中 描述 的 关于 自 组 织 学 习 的 协 方差 假 岗 。 假 设 轴 历 ( 即 时 间 半 均 可 蔡 
代 总 体 平均 )， 证 明 在 式 (2.10) 中 的 Atmw( 训 的 期 望 值 可 表示 为 
E[Aos] = 妨 xx- 联 ) 
你 怎样 解释 这 个 结果 。 
2.9 根据 Linsker(1986)， 学 习 的 Hebb 假说 可 以 用 公式 
Atau = 天 和 一世 人 和 一 各) + 
表示 ， 其 中 六 租 六 分别 为 前 窒 触 和 后 突 触 信 导 ，a ，?， 如 ， 和 都 是 常数 。 假 设 神 经 元 玫 
是 线性 的 ， 由 
3 = m 十 Ga 
表 和 所， 其 中 aa 为 另 一 常数 。 假 设 所 有 输入 信号 的 概率 分 布 相同 ， 即 百 [x,] = 加 [和 ] = pe 仿 
和 拖 阵 C 表示 为 输入 信和 号 的 协 方差 定 阵 ， 它 的 第 六 个 元 素 定义 为 
= Ex po- 由 ] 
































试 确定 瑟 [Azru ] 。 
2.10 给 出 图 2-28 网 络 中 神经 匹 7 的 输出 六 的 表达 式 。 你 可 应 用 下 列 量 ; 
. = 第 工 个 输出 信号 到 
、 输入 判定 规则 动作 
让 = 从 输入 ;到 神经 元 7 的 突 触 权 值 (季风 络 ) | “| 用 生境 
cg = 从 神经 元 无 到 神经 元 /7 的 侧 向 连接 

的 权 值 
必 = 神经 元 的 诱导 局 部 域 上 
六 ga) 修改 自由 参数 |” 语 叉 永 下 的 训 基 信号 
神经 元 7 成 为 获胜 神经 元 应 该 满足 什么 图 2 2 

条 件 ? 


2.11 假设 每 个 输出 神经 元 包括 自 反馈 ， 重 复 问 题 2.10。 

2.12 侧 抑制 的 连接 模式 ， 即 * 近 激励 而 远 抑 制 "， 可 以 用 两 个 Gauss 曲线 的 差 建 模 。 这 
两 条 曲线 有 相 河 的 面积 ， 但 是 ， 用 于 激励 的 正 曲线 比 用 于 抑制 的 负 曲 线 有 较 高 和 较 窑 的 峰 。 
也 就 是 可 以 把 连接 模式 表示 为 ， 








1 -2o2 1 -2 
(xz) = 一 二 -一 
《5) V 2rc。 YY 2rra， 








其 中 x 是 到 侧 抑 制 神经 元 的 丰 离 。 利 用 模式 不 (xz) 扫 描 一 个 页 面 ， 一 半 是 白 的 一 半 是 黑 的 ， 
两 半 之 则 的 边界 垂直 于 * 轴 。 
画 出 当 c. =5，c: =8 和 o. =1，c. =2 时 这 个 扫描 过 程 的 输出 -。 




















学 习 范 例 

2.18 图 2-28 给 出 自 适 应 语言 获得 系统 的 方 框图 (Gorin,1992)。 根 据 机 器 对 输入 刺激 响 
应 的 适应 程度 的 反馈 ， 系 统 的 神经 网 络 部 分 的 突 触 连接 被 增强 或 减弱 。 这 个 系统 可 看 作 增强 
式 学 习 的 例子 。 说 明 这 个 陈述 合理 人 性 。 

2.14 下 例 算法 中 ， 娜 两 个 范例 属于 有 教师 学 习 和 无 教师 学 习 ? 

(a) 最 近邻 规则 




















党 刀 过 杜 - 79 





(b 关 一 最 近邻 规则 
(e)Hebb 学 习 
(d)Bolizmann 学 习 规 则 
说 明 你 的 答案 的 理由 。 
2.15 无 监督 学 习 可 以 用 在 线 或 离线 方式 实现 。 讨 论 这 两 种 可 能 方式 的 物理 含义 。 
2.16 考虑 学 习 机 器 面 对 象 棋 游戏 结果 ( 赢 、 输 或 平局 ) 信 任 赋值 的 困难 。 在 这 个 游戏 背 
长 下 讨论 时 间 信 任 赋值 和 结构 信任 赋值 的 概念 。 
2.17 可 以 把 一 个 监督 学 习 任 务 看 作 增 强 式 学 习 任务 ， 其 中 把 系统 的 实际 响应 和 期 望 响 
应 靠近 的 某 种 度量 作为 增强 信号 。 讨 论 监督 学 习 和 增强 式 学 习 的 这 种 关系 。 
2.18 考虑 应 用 于 相关 和 拖 阵 记忆 的 关键 模式 的 下 述 正 交 集 : 
允 = [1,0,0.0]7 克 = [0,1.0.0]” 和 = [0.0,1.0]7 
相应 的 储存 模式 为 
= [5,10] 更 =[-2,1,67 见 =[-2,4,3]7 TD 
(a) 计 算 记忆 垂 阵 M。 
(b) 证 时 记忆 完全 联想 。 
2.19 再 考虑 问题 2.18 的 相关 和 拖 阵 记忆 。 应 骨 于 记忆 的 刺激 是 关键 模式 w 的 带 噪 声 形 
式 ， 表 示 为 














X = -0.8, -0.15,0.15, - 0.20] 
(a) 计 算 记忆 响应 
人 ) 证 明 响 应 y 在 欧 几 里 德 意 义 下 和 存储 模式 y 最 接近 。 
2.20 利用 下 例 关键 向 量 训 练 自 联 想 记忆 : 


和 -2 33 2 1V6 


(a) 计 算 这 些 向 量 之 间 的 夹 角 。 它 们 相互 之 问 离 正 交 性 有 多 近 ? 

《b) 利 用 推广 的 Hebb 规则 ( 即 外 积 规则 ) ， 计 算 网 络 的 记忆 矩阵。 考查 自 联想 和 完全 记忆 
联想 有 多 近 。 

(c) 把 关键 向 量 z 的 伪装 形式 即 输出 信息 
x= :0, -3V3]7 

应 用 于 记忆 。 计 算 记 忆 的 响应 ， 将 结果 和 期 户 输入 俏 号 
响应 % 比较 。 
自 适应 

2.21 图 2-29 表示 一 个 自 适 应 系统 的 方 框图 。 
预测 模型 的 输入 信和 号 定义 为 过 程 的 过 去 值 。 表 示 为 
x(na -1 = [za -Dizta -2) mvx(e-mm] 

便 型 输出 &(w) 表 示 对 过 程 现在 值 *(n) 的 估 
计 。 比 较 器 计算 误差 信号 
efm) = xm) -2() 图 2-29 Da 
它 接 着 用 于 修正 模型 的 可 调 参 数 。 它 也 提供 转 
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移 到 神经 处 理 下 一 级 的 输出 信号 用 于 解释 。 在 一 级 接 一 级 的 基础 上 重复 这 个 操作 ， 系 统 处 理 
的 信息 和 逐步 提高 质 基 (Mesd,1990 ) ~ 

写 出 图 2-29 中 描述 的 下 一 级 信号 处 理 的 细节 。 
统计 学 习 理论 

2.22 根据 从 式 (2.61) 导 出 (2.@2) 的 相似 过 程 ， 导 出 式 (2.66) 定 义 的 总 体 平均 函数 二 (让 
(0 PC, )) 的 公式 ， 

2.23 在 这 个 问题 中 我 们 希望 计算 具有 和 平面 上 的 坐标 轴 重 合 的 矩形 区 域 的 YC 维 数 。 
证 明 这 个 概念 的 VC 维 数 为 4。 你 可 以 通过 下 列 方式 完成 证 明 ， 

〈a) 平 面 上 的 四 个 点 ， 以 及 有 边 与 一 个 坐标 轴 重 合 的 矩形 能 够 实现 的 二 分 ， 

(b) 平 面 上 四 个 点 ， 以 及 有 边 与 一 个 坐标 轴 重 合 的 矩形 不 能 够 实现 的 二 分 ; 

(e) 平 面 上 五 个 点 ， 以 及 有 边 与 一 个 坐标 钠 重 全 的 矩形 也 能 够 实现 的 二 分 。 

2.24 考虑 线性 二 值 模式 分 类 器 ， 它 的 输入 向 量 x 有 严 维 ， 向 量 x 的 第 一 个 分 量 为 常 
数 1 从 而 分 类 器 相应 的 权 值 为 偏 壮 。 分 类 器 关于 输 和 空间 的 VC 维 数 是 多 少 ? 
2.25 不 等 式 (2.97) 定 义 一 致 收敛 速度 的 一 个 界 ， 它 是 经 验 风 险 最 小 化 原则 的 基础 。 
(a) 假 设 不 等 式 (2.97) 成 立 ， 验 证 式 (2.98) 的 正确 性 。 
(b) 导 出 定义 置信 区 间 s 的 等 式 (2.99)。 
2.26 继续 例 2.3， 证 明 图 2- 30 中 的 四 个 平均 分 布 的 点 不 能 被 单 参 数 指示 函数 族 fx 
4 所 局 分 散 。 












































也 ) ， 


图 2-30 


2.27 ”在 非 线 性 回归 环境 下 讨论 偏 置 - 方差 困境 和 结构 风险 最 小 化 的 关系 。 

2.28 《〈a) 由 具有 sigmoid 函数 的 神经 元 组 成 的 多 层 前 镇 网 络 的 训 练 算法 是 PAC 可 学 习 
验证 这 个 陈述 的 正确 性 。 
(b) 由 具有 阔 值 激活 函数 的 神经 元 组 成 的 任意 网 络 你 能 作出 类 做 的 陈述 吗 ? 证 明 你 的 答 
案 的 正确 性 。 


的 








第 3 章 单 层 感知 器 


3.1 简介 


在 神经 网 络 的 形成 阶段 (1943 - 1958) ， 一 些 研究 者 作出 了 并 折 人 竹 的 贡献 

， MeCulloch and Pits(1943) 引 入 神经 网 络 的 概念 作为 计算 的 上 具 。 

*， Hebh(1949) 提 出 自给 织 学 习 的 第 一 个 规则 。 

*。 Rosenblatt(1958) 提 出 感知 器 作为 有 教师 学 习 ( 即 监督 学 习 ) 的 第 一 个 模型 。 

MecCulloch - Pitts 关于 神经 网 络 的 论文 所 造成 的 重要 影响 在 第 1 章 中 已 经 得 到 了 充分 立 
述 。Hebb 学 习 的 概念 某 种 程度 上 在 第 2 章 中 也 得 到 了 讨论 -在 本 章 中 我 们 将 讨论 Rosenblatt 
的 感知 器 。 

感知 器 是 用 于 线性 可 分 模式 ( 即 模式 分 别 位 于 超 平面 所 分 隔 开 的 两 边 ) 分 类 的 最 简单 的 神 
经 网 络 模型 。 基 本 上 它 由 一 个 具有 可 调 突 触 权 值 和 偏 置 的 神经 元 组 成 。 用 来 调整 这 个 神经 网 
络 中 自由 参数 的 算法 最 早出 现在 Rosenblatt( 1958,1962) 提 出 的 用 于 其 脑 感知 模型 的 一 个 学 习 
过 程 中 心 。 事 实 上 ， 如 果 用 来 训练 感知 器 的 模式 (向 量 ) 取 自 两 个 线性 可 分 的 类 ，Rosenblatt 
证 明了 感知 器 算法 是 收敛 的 ， 而 且 由 超 平面 属 成 的 决策 面 位 于 芮 类 之 问 。 算 法 收敛 性 的 证 明 
被 称 为 感知 器 收 伍 定理 。 建 立 在 一 个 神经 元 上 的 感知 器 的 模式 分 类 被 限制 为 只 能 完成 两 类 
《假设 ) 的 模式 分 类 。 通 过 扩展 感知 器 的 输出 层 可 以 使 感知 器 包括 不 止 一 个 神经 元 ， 相 应 地 我 
们 可 以 进行 多 于 两 类 的 分 类 。 但 是 ， 只 有 这 些 类 是 线性 可 分 时 感知 器 才能 正常 工作 。 重 要 的 
一 点 在 于 仅 关心 作为 模式 分 类 器 的 感知 器 的 基本 理论 ， 我 们 只 需 考虑 单个 神经 元 的 情况 。 有 
关 多 个 神经 元 的 理论 礁 广 是 很 平常 的 。 

单个 神经 元 也 构成 一 个 自 运 应 滤波 器 的 基础 ， 自 适应 让 波 器 是 不 断 发 展 的 信号 处 理 主 题 
的 一 个 基本 功能 模块 。 自 适应 涨 波 器 的 发 展 很 大 程度 上 要 归 荔 于 Widrow and Hof(1960) 有 关 
最 小 均 方 (least mean square,LMS) 和 工法 (也 被 称 为 delta 规则 ) 的 经 典 论文 。LMS 算法 虽然 实现 
很 简单 ， 但 在 应 用 中 有 很 高 的 效率 。 事 实 上 ， 它 在 线性 自 适 应 主 波 中 起 着 关键 作用 ， 线 性 指 
的 旦 神经 元 在 线性 模型 下 运行 。 自 适应 主 波 器 在 天 线 、 通 信 系 统 、 控 制 系统 、 雷 达 、 声 纳 、 
地 震 学 和 生物 医学 工程 等 很 多 领域 都 有 应 用 (有 Widrow and Steams,1985;Haykin,1996)。 

LMS 算法 和 感知 器 本 质 上 是 相关 的 。 因 此 我 们 把 它们 放 在 同一 章 里 来 学 习 是 适宜 的 。 


本 章 的 组 织 


本 章 分 为 两 部 分 。 第 一 部 分 包括 3.2 节 至 3,7 节 ， 处 理 线 性 自 适应 背 波 岩 和 LMS 算法 ; 
第 二 部 分 包括 3,8 至 3,10 节 ， 处 理 Rosenblat 的 感知 器 。 从 表示 的 观点 看 ， 我 们 发 现 先 讨论 
线性 自 适应 滤波 器 再 讨论 Rosenblatt 感知 器 较为 方便 ， 这 和 它们 在 历史 上 出 现 的 顺序 相反 。 

在 3.2 节 讨论 自 适 应 滤波 问题 ， 接 着 在 3,3 节 同 顾 三 种 无 约束 最 优化 技巧 ; 最 速 下 降 
法 、Newion 法 和 Gauss-Newton 法 ， 它 们 都 是 与 自 适应 滤波 器 研究 有 关 的 。3.4 节 讨论 线性 最 
小 二 乘 滤波 器 ， 它 随 着 数据 长 度 的 增加 渐 近 赵 于 Wiener 滤波 器 。Wiener 滤波 器 为 线性 自 适 
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画 了 黄 





应 让 波 器 在 平稳 环境 下 的 运行 性 能 提供 一 个 理想 的 框架 。 在 3.5 节 措 述 LMS 算法 ， 包 括 它 的 
优点 和 局 限 性 。 在 3.6 节 探 讨 通 常用 来 评价 身 适 应 滤波 器 性 能 的 学 习 曲 线 的 思想 。3.7 节 讨 


论 LMS 算法 的 退火 时 间 表 。 





承 后 转向 到 Rosenblatt 的 感知 器 ，3.8 节 提供 一 些 与 其 运行 有 关 的 基本 考虑 。3.9 节 描 述 
应 用 于 线 忻 可 分 类 别 模式 分 类 的 感知 回 突 钢 权 值 向 量 的 调整 竺 法 ， 并 验证 此 算法 的 收 伍 性 。 
在 3.10 节 考 虑 感知 器 和 Gauss 坏 境 下 分 类 融 的 关系 。 











本 章 以 3.11 节 的 总 结 和 讨论 作为 结 
3.2 自 适应 滤波 问题 

考虑 一 个 动态 系统 ， 其 数学 特征 未 知 。 我 们 已 
知 的 是 此 系统 在 离散 时 间 内 以 国定 速率 产生 的 一 系 
列 标定 的 输入 - 输出 数据 。 具 体 地 ， 当 一 个 严 维 的 
刺激 芭 站 通过 此 系统 的 mm 个 输 和 节点， 系统 产生 
一 个 标量 输出 4( 作为 响应 ， 如 图 3-1a 所 示 ， 其 
中 = 1,2,…，,n…s。 此 系统 的 外 部 行为 由 数据 




















了 Xi,GED= 12n (031 
描述 ， 其 中 
(Ci = [和 (aa 人 站 sx 人 ( 刘 ] 
了 中 的 样本 根据 一 个 未 知 概率 法 则 是 同 分 布 的 。 输 








刺激 x( 半 能 够 以 两 种 根本 不 同 的 方式 之 一 出 现 ， 


加 

蕊 电 上 未 知 动 输出 
输入 二 态 系统 |  d() 

xD 








图 3-1 
外 末 知 动态 系统 b) 系 统 自 通 应 模型 的 信号 流 图 


入 向 量 x 的 维 数 称 为 输 人 空间 的 维 数 或 简称 为 维 数 (dimensionality )。 


一 种 是 空间 的 和 另 一 种 是 时 间 的 : 


， xD) 的 亚 个 元 素 代表 空间 中 的 不 同 点 ， 在 这 种 倩 况 下 我 们 称 x( 为 数据 的 餐 像 


(snapshot) 。 





”xD) 的 严 个 元 素 代表 在 时 间 上 均匀 分 布 的 某 个 刺激 的 现在 和 严 - 工 个 过 去 的 值 组 成 


的 集合 。 





我 们 面 对 的 问题 是 如 何 通过 建立 一 个 简单 线性 神经 元 来 设计 未 知 动态 系统 的 一 个 多 输 


人 一 学 输出 模型 。 这 个 神经 元 模型 是 在 一 个 算法 的 影响 下 运行 的 ， 此 算法 控制 对 神经 元 的 突 








乔 权 值 的 必要 调整 ， 同 时 记 住 以 下 要 点 ， 


” 此 算法 从 任意 设 定 的 一 个 神经 元 突 触 权 值 开 








始 。 


” 为 响应 系统 行为 的 统计 变化 ， 突 触 权 值 调整 是 建立 在 连续 基础 上 的 ( 即 把 时 间 加 进 算 


法 中 )。 


* 调整 突 触 权 值 的 计算 在 长 度 为 一 个 采样 周期 的 时 间 段 里 完成 。 
这 样 描述 的 神经 元 模型 称 为 自 运 应 滤波 器 (adaptive filter)。 虽 然 在 作为 系统 辩 识 的 一 
任务 背景 下 给 出 的 描述 ， 但 自 适应 滤波 器 的 特征 还 是 对 很 广 的 应 用 有 足够 的 一 般 性 。 























3- 了 b 是 一 个 自 遭 应 泪 波 器 的 示意 图 ， 它 的 运 
1 过滤 过 程 ， 涉 及 两 个 信 叶 计算 ; 





行 由 两 个 连续 过 程 组 成 : 


”一 个 输出 ， 记 为 Y( 让 ， 它 被 产生 以 响应 刺激 向 量 x( 划 的 严 个 元 素 ， 即 站， 


(Di 
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。 一 个 误差 信号 ， 记 为 e( 让 ， 它 是 通过 比较 输出 (时 和 未 知 系统 的 相应 输出 @(i。 
事实 上 ，<i(5) 作 为 一 个 期 望 响 应 信号 或 者 目标 信号 。 

2. 自 适应 过 程 ， 包 括 根 据 误差 e( 芒 对 神经 元 突 触 权 值 的 自动 调整 。 

从 而 ， 这 两 个 共同 运作 过 程 的 组 合 构成 一 个 围绕 神经 元 运作 的 反馈 环 。 

因为 神经 元 是 线性 的 ， 输 出 y( 妆 恰 为 诱导 局 部 威 v( 访 ， 即 

7 = 2(i) = 宇 CD 《3.2) 

其 中 ma ( 曲 ，za( 间 ，…，tu( 昌 表示 在 时 刻 守 神经 元 的 详 个 突 触 权 值 。 利 用 矩阵 形式 我 们 
可 以 表 天 7) 为 向 量 区 站 和 w( 昌 的 内 积 形 式 如 下 : 
7(i) = XiDW( 《3.3) 
这 里 (站 =[ai 人 (ior(D，sazoefi]7 
注意 这 个 突 触 权 值 的 记号 已 被 简化 ， 不 包括 附加 的 标识 神经 元 的 下 标 。 因 为 我 们 只 考虑 单个 
神经 元 。 这 种 考虑 贯穿 整个 一 章 。 神 经 元 的 输出 y (站 要 与 未 知 系统 在 时 刻 i 的 相应 输出 
d(D 作 比较 。 通 常 ，y( 划 与 4( 门 不 等 ; 因此 它们 的 比较 结果 得 到 了 误差 信号 : 
efi) = 红 刘 -YY 《3.4) 
误差 信号 e( 让 用 来 对 神经 元 突 触 权 值 调整 进行 控制 的 方式 是 直 用 于 导出 自 适应 滤波 算法 的 
代价 函数 决定 的 。 这 个 问题 与 最 优化 紧密 相关 。 因 此 回 质 一 下 无 约束 最 优化 方法 是 适 实 的 。 
这 些 材料 不 仅 可 以 应 用 在 线性 自 适应 滤波 器 上 ， 还 可 以 应 用 在 一 般 神 经 网 络 上 。 


3.3 ”无 约束 最 优化 技术 


考虑 代价 函数 8Cw) ， 它 是 一 个 以 未 知 权 值 (参数 ) 向 量 w 的 连续 可 微 函数 。 函 数 &(w) 映 
射 w 的 元 素 为 实数 。 它 是 一 种 度量 ， 用 来 选择 自 适 应 滤波 算法 的 权 值 (参数 ) 向 量 w 使 得 它 
以 最 优 方式 运行 。 我 们 想 找到 一 个 最 优 解 w" 满足 条 件 















































(mw ) (四 (3.5) 
也 就 是 说 ， 需 要 解决 一 个 无 约束 的 优化 问题 ， 即 
选择 适当 的 权 值 向 量 W 最 小 化 代价 函数 肾 (w) (3.6) 
最 优 性 的 必要 条 件 是 
VS(w ) =0 (3.7) 
这 里 9 是 样 度 竺 子 ， 
y = [ 庆 , 汉 天-] (3.8) 
同时 VS(w) 是 代价 函数 的 梯度 向 量 
Ve(w) = [3 到,3 昌 ,2 到] (3.9) 


了 
一 种 特别 适合 自 适 应 滤波 器 设计 的 无 约束 最 优化 算法 是 以 局 部 选 代 下 降 思想 为 基础 的 : 
以 一 个 初 妈 估计 值 W(0) 开 始 ， 产 生 一 系列 权 值 向 量 w(1)，wf2)，…， 使 得 代价 数 
色 (w) 在 算法 的 每 次 选 代 中 要 有 下 降 ， 即 
8(w(mn+1l)) < 加 wan)) (3.10) 
这 里 wkn) 是 权 值 向 量 的 旧 值 而 W(n+1l) 是 它 的 更 新 值 。 
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我 们 希望 算法 最 终 收 和 敛 到 最 优 解 w” 。 我 们 说 “希望 "是 因为 除非 采取 特别 的 预防 措施 ， 
算法 有 可 能 发 散 ( 即 变 得 不 稳定 ) 。 

在 这 一 节 我 们 描述 三 种 以 迭代 下 降 思 想 这 种 或 那 种 形式 为 基础 的 无 约束 最 优化 方法 
(Bertsekas, 1995a) 。 





最 速 下 降 法 


在 最 速 下 降 法 中 ， 对 权 值 向 量 w 的 连续 调整 是 在 最 速 下 降 的 方向 进行 的 ， 也 就 足 它 是 
与 梯度 向 量 YB(w) 方 向 相反 的 。 为 了 表示 方便 ， 记 为 
8 = YES(w) 《3,11) 





因此 ， 最 速 下 降 法 一 般 表示 为 
w+ll = wa) -人 (mn) 《3.12) 
这 里 3 是 一 个 正常 数 ， 称 为 步 长 (atepsize) 或 学 习 率 参数 (leaming-rate parameter) ，g( mn) 是 在 
wm) 处 的 梯度 向 重 值 。 在 从 选 代 n 到 n+ 1 的 过 程 中 算法 应 用 修正 
Awln) = wn+1l -wz)=- 圳 (nm) (3.13) 
式 (3.13) 实 际 圭 是 第 2 章 中 描述 过 的 误差 修正 公式 的 标准 形式 。 
为 了 证 明 最 速 下 降 法 的 公式 满足 式 (3.10) 的 选 代 下 降 条 件 ， 我 们 用 w(z) 附 近 的 一 阶 
Taylor 级 数 展 开 来 逼近 8(w(rz + 1)) ， 即 
多 (WwW(n + 上) 一 音 (w(n)) + grCn)AwCn) 
上 式 对 较 小 的 ?是 适用 的 。 在 这 个 近似 关系 代入 式 (3.13) 得 到 
gw(n+1)) = 轩 Wwn))- 耻 Cn)g(n) = 入 (Ww(Cn)) -了 | ga) |? 
上 式 表明 ， 对 正 的 学 习 率 参数 ? 代价 函数 每 次 欠 代 都 是 下 降 的 。 但 这 里 提供 的 推导 尾 近 似 
的 ， 只 有 当 学 习 率 足够 小 时 才 是 正确 的 。 
最 速 下 降 法 收 伍 到 最 优 解 w* 的 速度 是 很 慢 的 。 此 外 ， 学 习 率 参数 1 对 收 敏 速度 有 重要 
影响 : 

















， 当 习 较 小 时 ， 算 法 的 郡 时 响应 是 平缓 的 (overdamped) ， 由 于 w(m) 的 轨迹 是 下 平面 的 
个 光滑 曲线 ， 如 图 3-2a 所 示 
，。， 当 1 较 大 时 ， 算 法 的 瞬时 响应 是 剧烈 的 (underdamped) ， 由 于 w(m) 的 轨迹 是 锯齿 ( 振 
葛 ) 形 的 ， 如 图 3-2b 所 示 。 
，* 当 习 超过 了 某 一 临界 值 时 ， 算 法 是 不 稳定 的 ( 即 不 收敛 的 )。 


Newton 方法 
Newton 方法 的 基本 思想 是 最 小 化 代价 函数 (wmw) 在 当前 点 w( =) 周围 的 二 次 近似 值 ; 最 小 


在 算法 的 每 次 闪 代 中 都 要 进行 。 特 别 ， 利 用 代价 函数 在 点 w( n) 周 围 的 二 次 Taylor 级 数 展 
开 式 ， 我 们 得 到 


AS(w(o)) = 区 (w(mn + D) -要 (wa)) = gr(n)Aw(n) + 村 AwCn)HCn)Aw(m) 


《3.14) 
和 以 前 一 样 ，g mn) 是 代价 函数 吕 (w) 在 点 w(a) 处 的 mx 1 梯度 向 量 。 邱 阵 了 (nm) 是 营 (w) 在 
wa) 的 严 行 mm 列 Hessian 天 阵 。 名 (ww) 的 Hessian 矩阵 定义 为 
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图 3-2 最 速 下 降 法 关于 学 习 率 参 数 的 不 同 值 在 二 维 空间 的 轨迹 ; 
aq= 0.3 b)9=1.0 学 杯 wk 利 zz 是 权 值 向 最 w 的 元 素 








避 思 玉 思 3 时 
3 aiawo 5 
帮 3 红包 于 旬 
了 开 = 立 于 (WP) = | 3xaaml ao too3zn 
33 电 3 包 旦 多 





3 3 


io 


(3.15) 
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式 (3.15) 需 要 代价 函数 8(w) 关 于 w 的 元 素 二 阶 连 续 可 微 。 对 式 (3.14) 取 Aw 微 分 汶 ， 雪 
gtn) + Htn)Awin) = 0 

叶 改 变量 Ag(w) 达 到 最 小 。 解 有 关 Aw(m ) 的 方程 得 到 
Aw(n) =- HH (ng(m) 





也 就 足 
WwW(z+l) = wn)+Anwn) =wa)-HICn)gn) (3.16) 
这 里 开 (na) 是 轨 (w) 的 Hessian 矩阵 的 道 。 

一 般 来 说 ，Newton 方法 收 伍 得 很 僚 ， 而 卫 不 会 出 现 最 速 下 降 污 有 时 会 出 现 的 饮 齿 彤 情 
况 . 但 是 ， 应 用 Newton 方法 时 ，Hessian 矩阵 必须 对 每 个 "都 是 正定 矩阵 6 。 不 过 ， 一 般 不 
能 保证 在 算法 的 每 次 友 代 中 Han) 都 是 正定 年 阵 。 假 如 Hessian 矩阵 H(n ) 不 正定 ， 修 正 
Newton 方法 就 有 必要 (Powell，1987;， Berlsekas，1995a) 。 





Gauss-Newton 方法 
Causs-Newton 方法 应 用 于 这 样 一 种 代价 丙 数 ， 它 表示 为 误差 的 平方 和 。 令 
gw = 去 呈 eG G.17) 


这 里 尺度 因子 12 是 为 了 简化 以 下 的 分 析 。 此 公式 中 的 所 有 的 误差 项 都 是 以 权 值 向 量 w 为 基 
础 计算 得 来 的 ， 这 里 w 在 遍及 1 大 < 的 全 部 观察 区 间 内 周 定 。 
误差 信号 。(i) 是 可 调 权 值 向 量 w 的 函数 。 给 定 操作 点 w(a)， 我 们 通过 以 下 方式 来 线性 


























E e(i 对 下 的 依赖 性 ; 
ww -e+[29] ww 2 (3.18) 
用 矩阵 记 导 可 写成 等 价 的 形式 
e (nmw) = en)+Jnw-wcn)) 【3.19) 
中 人 由 是 误差 向量 














em) = [e( 昌 ,e(2)，…，e(m)]7 
JIn) 是 e(na) 的 mx 挛 Jacobi 矩阵 ; 




















aetl) ae .,，ae(D) 
Di ao aon 
ae() ae(2) ae(2) 
Jn) = | 9 atoa 9aom (3.20? 
ae(n)y ae(m) ..，ae(z) 
oa ao om。 -ww 


Jacobi 扼 阵 开 m) 是 mx m 梯度 扼 阵 Ve( =) 的 转 置 ， 这 里 
Ve(n) = [Ye(lD),Ve(2)，…Ve(n)] 
更 新 的 权 值 向 量 w(mn + 1) 定 义 为 
w+rD = agni 人 二 ee] (3.21》 


等 式 (3.19) 来 估计 eg (mw) 的 Euolid 范 数 的 平方 ， 我 们 得 到 








午 
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二 le = 了 eol2vetaoIOOCw-wC) 


+ 于 (w- wa)rrCnDJCn(w - wm) 


因此 ， 将 以 上 表示 方式 对 到 求 微分 并 设 结果 为 零 ， 我 们 得 到 
本 (nje(n)+ 了 (niJn)w -mwn)) = 
从 这 个 方程 中 解 出 w， 考 虑 到 式 (3.21) 我 们 可 与 为 : 
w+ = wn)-( 了 (naJn)) 和 (ae(m) (3.22) 
正式 岳 述 Gauss-Newion 方法 的 纯粹 形式 。 

不 像 Newton 方法 必须 知道 代价 函数 轩 (m) 的 Hessian 甜 阵 ，Gauss-Newton 方法 只 需要 已 知 
误差 向 量 e( za) 的 Jacobi 矩阵 。 但 是 ， 为 了 使 Gauss-Newton 迁 代 可 计算 ， 矩 阵 乘积 下 (mn)J(n) 
必须 是 非 奇异 的 。 

关于 后 一 点 ， 我 们 认识 到 开 (n)J(Cn) 总 是 非 负 定 的 。 为 了 保证 它 是 非 奇异 的 ，Jacobi 矩 
阵 于 nm) 的 行 秩 必 须 是 mn; 也 就 是 说 ， 式 (3.20) 中 无 m) 的 半 行 必须 是 线性 无 关 的 。 不 过 ， 我 
们 并 不 能 保证 这 个 条 件 总 是 满足 。 为 了 防止 Ta) 的 秩 亏 损 ， 通 常 的 办 法 是 给 矩阵 J(n) 
民 ) 加 一 个 对 角 矩 阵 8[。 参 数 8 是 -个 小 的 正常 数 ， 它 的 选择 必须 保证 

本 (n)JCn) + 3[: 对 所 有 = 都 是 正定 的 
在 这 个 基础 上 ，Causs - Newton 方法 以 下 面 微小 修正 形式 实现 
wmn+1l) = wa) -TOnTan)+SDJ(n)e(n) (3.23) 
当先 代 次 数 ”不断 增 大 时 ， 这 个 修正 的 绷 响 是 逐渐 减少 的 。 间 时 注意 递归 式 (3.23) 是 修正 的 
代价 函数 ， 
Sm = 本 {lw-wo+ ne] (3.24) 


的 解 ， 其 中 w(m) 古 权 值 向 量 Wi 的 当前 值 。 一 
现在 我 们 已 经 具 各 了 解决 线 佳 自 适应 波 波 器 涉 及 的 特殊 问题 所 篆 的 最 优化 工具 。 
3.4 ”线性 最 小 二 乘 滤波 器 


同 标题 暗示 的 一 样 ， 一 个 线性 最 小 二 乘 滤波 器 有 两 个 明显 的 特征 。 第 -， 在 它 构造 周转 
的 神经 单元 是 线性 的 ， 如 图 3- 了 b 的 模型 所 示 。 第 二 ， 用 来 设计 让 波 器 的 代价 函数 ( w) 是 误 
差 平方 和 ， 如 式 (3.17) 的 定义 。 在 这 个 基础 上 ， 利 用 式 (3.3) 和 (3.4)， 误 差 向 量 an) 可 以 表 
示 如 下 : 
































e(n) = dn) - [xl),x(2)，x(n)]rw(n) = an) -XCn)w(n) (3.25) 
其 中 尼 m) 是 mx1 的 期 望 响应 向 量 : 
臣 m) = [dd(2)dCn)]7 





X(n) 是 mx 的 数据 矩阵 : 

XCn) = [x(m) ,xs(2)， Cn)] 
巾 式 (3,25) 对 W(n) 取 微分 得 到 梯度 扼 阵 

Veftz) = -XTn) 





相应 地 、e( m) 的 Jacobi 和 矩阵 是 
0 = 一 (P) (3.26) 
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因为 误差 式 (3.19) 对 权 什 向 量 w(n) 已 是 线性 的 ， 如 下 所 示 Ganss-Newton 方法 在 一 次 选 代 后 
收 和 化。 将 式 (3.25) 和 (3.26) 代 人 (3.22) 得 到 
w(m+l)= w(n)+t(XTOn)Xn))XTCz)Cdtny-XCn)w(n)) 
= (X7(n)X(n)) (nyd(a) . 
项 (KTCn)X(m))- X7(n) 被 看 作 是 数据 矩阵 X(z) 的 仿 送 (Golub and Van Loan(1996) ，JTaykin 
《1996)): 四 


(3,27) 


X (ea) = (KTCn)XCn)) TXTCn) 《3.28) 
因此 ， 我 们 可 以 把 式 (3.27) 改 写 为 紧凑 的 形式 : 
wmn+1l) = XI Cn)a(n) (3.29) 


这 个 公式 表示 下 面 陈述 的 一 个 简便 方式 :“ 权 值 向 量 w( + 1) 求 解 定义 在 持续 时 间 为 n 的 一 
个 观察 区 间 上 的 线性 最 小 二 乘 问题 -” 


Wiener 滤波 器 : 各 态 历 经 环境 下 的 线性 最 小 二 乘 滤波 器 的 极限 形式 


一 个 有 趣 的 情形 是 : 当 输 入 向 量 x(i) 和 期 望 响应 d ( 划 来 自 于 各 态 押 经 (ergodic) 平 稳 环 
境 。 我 们 可 以 用 长 期 样本 均值 或 时 间 均 值 来 代替 期 望 或 总 体 均值 (Gray and Davisson ,1986)。 
这 样 一 个 环境 可 以 部 分 用 以 下 一 阶 统 计量 来 描述 : 
。 输入 向 量 xf 站 的 相关 矩阵 (corelation matrix); 记 为 及。 
*。 输入 向 量 x( 共和 期 望 响 应 df( 芭 之 间 的 互相 关 向 量 (eross-correlation vector); 记 为 1xuo 
这 两 个 量 分 别 定义 如 下 ; 
R。 = E[x(i)x7(b)] = J 款 史 soe( = Ji 荆 Xr(n)X(n) (3.30) 


ru = 忆 [x(id(i)] = i 邯 2 )a(i) = j 了 Xr(a)a(m (3.31) 


其 中 刁 表示 统计 期 望 算 子 。 相 应 地 ， 我 们 可 以 把 式 (3， 27) 的 线性 最 小 二 乘 解 改写 为 
ww= limw(n+1) = jim( 和 (em)XCn)) XICn)dCn》 








(3.32) 
= lim 二 (KTCmJX(n)) 1 ] 库 JEXr mn)d(a) = Rilrs 
这 里 Rz "是 相关 矩阵 了 的 道 。 为 了 纪念 Norhert Wiener 对 这 个 问题 作出 的 贡献 , 权 值 向 量 w。 
称 为 线性 最 优 沥 波 问题 的 Wiener 解 (Widrow and Steams,1985; Haykin, 1996 )。 因 此 ， 我 们 可 以 
作出 以 下 的 陈述 ， 
对 一 个 各 态 历经 过 程 ， 当 观察 样本 数 趋 于 无 穷 时 ， 线 性 最 小 二 乘 滤波 器 渐进 趋 于 Wiener 
设计 Wiener 滤波 器 需要 二 阶 统计 量 的 知识 ; 输入 向 量 x(n) 的 相关 矩阵 R, 称 x( nm) 与 期 
望 响 应 4(m) 的 互相 关 向 量 ns。 但 是 ,在 实际 遇 到 的 很 多 重要 情况 下 这 些 信息 都 是 未 知 的 。 
我 们 可 以 利用 线性 白 适 应 泪 着 器 (linear adaptive filter) 来 处 理 未 知 的 环境 ， 自 适应 在 这 里 的 意 
思 和 是 滤波 器 能 够 调整 自己 的 自由 参数 来 响应 环境 的 统计 变化 。 在 连续 基础 上 作 这 类 调整 的 一 
个 流行 的 算法 是 最 小 均 方 算法 ， 它 是 与 Wiener 滤波 器 密切 相关 的 。 








末 必 感 各 器 1 





3.5 ”最 小 均 方 算法 
最 小 均 方 (least mean square,[LMS ) 算 法 建立 的 基础 是 利用 代价 函数 的 几时 值 ， 即 























8(w) = 到 om) (3.33) 
这 里 e(z) 是 一 时刻 的 测 得 的 误差 。 把 (mw) 对 人 权 值 向 基 w 求 导数 得 到 
2 = efa) 人 (3.34) 
如 同 在 线性 最 小 二 乘 滤 波 器 上 一 伴 ，LMS 算法 运行 在 一 个 线性 神经 元 ， 可 以 把 误差 信号 表示 为 
efn) = d(n) -xr(Oa)w(n) (3.35) 
此 史 辣 ~ 一 (Pa) 
和 和 折光 = -xme(m 
把 后 者 作为 梯度 向 量 的 一 种 估计 ， 可 以 记 
ELe) = -xnje(o) (3.36) 
最 后 ， 利 用 式 (3.36) 作 为 式 (3.12) 中 的 最 速 下 降 法 的 梯度 向 基 ， 可 以 写 出 LMS 算法 公式 
讽 (ma+1l) = 席 (n)+(n)eta) (3.37) 
这 里 了 是 学 习 率 参数 。LMS 算法 中 国 绕 权 值 向 量 fg( =) 的 反馈 环 的 作用 就 像 一 个 低 通 滤波 器 ， 














即 通过 误差 信号 的 低频 分 量 ， 而 削弱 高 频 分 其 (Haykin,1996)。 过 滤 动 作 的 平均 时 间 常 数 与 学 
习 率 参数 ?成 反比 。 因 此 ， 给 ? 赋 一 个 较 小 的 值 ， 自 适应 过 程 将 进展 缓慢 。 由 此 更 多 的 过 去 
数据 被 IMS 算法 记忆 ， 导 致 一 个 更 精确 的 过 源 过 程 。 换 名 话说， 学 习 率 参 数 了 的 倒数 是 LMS 
算法 记忆 的 一 种 度量 。 
在 式 (3.37) 中 我 们 用 多 ( =) 代 夫 w(a) 用 来 强调 这 样 一 个 事实 : 利用 最 速 下 降 法 可 以 得 到 
一 个 权 值 向 量 而 LMS 算法 产生 该 权 值 向 量 的 -~ 个 估计 值 。 所 以 ， 使 用 LMS 算法 时 我 们 牺 
掉 最 速 下 降 法 的 一 个 明显 特征 。 在 最 速 下 降 法 中 ， 对 一 个 给 定 的 ? 权 值 向 量 w(=) 在 权 值 空 
间 中 有 一 个 明确 定义 轨迹 。 对 比 之 下 ,在 IMS 算法 中 权 值 向 量 克 (z) 则 跟踪 一 个 随机 的 轨 
迹 。 由 于 这 个 原因 ，LMS 算法 有 时 也 被 称 为 “随机 梯度 算法 "。 当 LMS 算法 的 迭代 次 数 趋 于 
无 限时 ， 久 (nm) 在 Wiener 解 w, 周转 随机 移动 (布朗 运动 )。 重 要 的 事实 是 ， 不 像 最 速 下 降 法 ， 
TMS 算法 不 需要 知道 环境 的 统计 特性 。 
在 表 3-1 中 小 结 ITMS 算 法 ， 它 清楚 表明 这 种 算法 的 简单 性 。 如 这 个 表 中 表明 的 ， 对 于 
算法 的 初始 化 ， 一 般 设 算法 中 的 权 值 向 景 初 始 值 设 为 零 。 
表 3.1_LMS 算法 小 结 



















































































训练 样本 : 输 人 信号 闪失 = x(m) 
期 望 响应 = 式 m) 

用 户 选择 参数 : 用 

初始 化 : 设置 w(a) = 

计算 : 当 m=l 2，…， 计算 


em)= 直 m) 一 帘 (n)x(n) 
请 (下 + 1 = 语 (n) +T(nJe(n) 
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LMS 算法 的 信号 流 图 表示 


结合 式 (3.33) 和 (3.37)， 我 们 可 以 把 LMS 算法 中 的 权 值 向 量 演变 过 程 才 示 如 下 : 
育 ( 站 + = 印 (n) + 人 (nj dm) 一 大 (7 请 (也 )] 

= LIE- 人 Cn)x7(z)] 合 (nn) + 识 Cajd(n) 

这 里 工 是 单位 认 阵 。 遂 过 运用 TNMS 算 Pr 

法 ， 我 们 认识 到 
克 (m) = 20[ 语 (n+])(3.39) 

这 里 * 是 单位 延迟 操作 符 ， 意 味 着 

存储 利用 式 (3.38) 和 (3.39)， 可 以 

用 图 3-3 描绘 的 信号 流 图 表示 LMS 算 

法 。 这 个 信号 流 网 揭示 TMS 算法 是 随 

机 反馈 系统 的 一 个 实例 。 反 馈 的 出 现 


《3.38) 





xf co 十 和 
EEEE WO 


























对 IMS 算法 的 收敛 有 重要 影响 。 
LMS 算法 的 收 委 考 虑 

从 控制 论 我 们 知道 反馈 系统 的 稳 0 
定性 是 由 组 成 反馈 环 的 参数 决定 的 。 图 3-3 JIMS 算 法 的 信号 流 图 表示 





从 图 3-3 看 出 ， 正 是 较 低 的 反馈 环 在 LMS 算法 的 运行 中 加 和 可 变性 。 特 别 是 ， 有 隔 个 不 同 
的 量 ， 即 学 习 率 参 数 9 和 输入 向 量 X(P)， 决 定 这 个 反馈 环 的 传输 系数 。 因 此 我 们 推出 输入 
向 量 x(m) 的 统计 特征 和 学 习 率 参数 的 取 值 影响 LMS 算法 的 收敛 行为 ( 即 稳定 性 )。 用 不 同 的 
方法 使 用 这 个 观察 ， 可 以 陈述 对 于 提供 输入 向 量 x( = ) 的 特定 环境 ， 我 们 必须 仔细 计 择 学 习 


率 参 数 1 以 便 使 LMS 算法 收敛 。 
LMS 算法 的 第 一 个 收敛 准则 是 平均 收 代 ， 描 述 为 
[WPm)] 一 w。 当 PP 一 时 (3.40) 














这 里 w。 是 Wiener 解 。 不 过 ， 这 样 一 个 收敛 准则 设 有 多 少 实用 价值 ， 因 为 一 系列 零 均 值 其 
他 为 任意 的 随机 向 量 在 这 种 意义 下 是 收敛 的 。 

从 实际 情况 考虑 ， 真 正 的 收 伍 应 该 是 均 方 收 化 ， 描 述 为 

Eres(a)] 一 常数 当 呈 一 om 时 (3.41) 

但 是 ， 一 个 LMS 算法 的 均 方 收 敛 的 详细 分 析 是 相当 复杂 的 。 为 了 使 这 个 分 析 在 数学 上 可 行 ， 
通常 作出 下 列 假设 ; 

1. 顺序 的 输入 向 量 x(1) ，x(2) ，… 下 相 统 计 独 立 。 

2. 在 第 ” 步 ， 答 和 向量 x( 对 以 前 样本 的 期 望 响应 d&(1)，d(2)，…，cC(za- 世 是 统计 
独立 的 。 

3. 在 第 ” 步 ， 期 望 响 应 d(z) 与 xn) 有 关 ， 但 对 以 前 的 所 有 期 望 响应 统计 独立 。 

4, 输入 向 量 x(a) 和 期 望 响应 4(n) 抽 取 自 Gauss 分 布 总 体 。 

在 此 基础 上 的 TMS 算法 统计 分 析 称 为 独立 理论 (independence theory)(Widrow et aj,,1976)。 

通过 引入 独立 理论 原理 并 假设 学 习 率 参数 1 足够 小 ，Haykin(1996) 证 明 只 要 ? 满足 条 件 





尊 受 感 和 有 9 





0 < 了 < 之 (3.42) 


LMS 是 均 方 收 傅 的 ， 这 里 xm 是 相关 矩阵 愉 的 最 大 特征 值 。 但 是 ， 人 在 LMS 算法 的 与 型 应 用 
中 ，)ju 是 末 知 的 。 为 了 训 服 这 个 困难 ， 及 ,的 迹 (tmace) 被 当 作 Xe 的 保守 估计 ， 在 这 种 情况 
下 ， 等 式 (3. 和 2) 可 以 改写 为 

















0<T< ai 【3.43) 


这 里 r[R.] 表 示 和 矩阵 &. 的 迹 。 根 据 定 义 ， 一 个 方 阵 的 迹 等 于 其 对 角 元 索 的 和 。 因 为 相关 和 扼 
阵 及 ,的 对 有 角 元 素 等 于 相关 传感器 输入 的 均 方 值 ， 我 们 可 以 重新 表述 LMS 算法 均 方 收敛 的 条 
件 旭 下 : 








的 
0 < 1 < 感 圳 笠 大 前 现 万 值 乏 和 (3.44) 
如 果 学 习 率 参数 满足 此 条 件 ， 那 么 TMS 算法 也 能 保证 平均 收敛 。 就 是 说 ， 均 方 收敛 能 推出 
平均 收 伍 ， 但 反 过 来 不 一 定 成 立 。 


LMS 算法 的 优点 和 局 限 


正如 表 3- 1 算法 概述 中 说 明 的 那 涯 ，LMS 算法 重要 优点 就 是 简单 。 此 外 ，LMS 算法 是 模型 
独立 的 ， 因 此 是 侍 棒 的 ， 这 意味 这 小 的 模型 不 确定 性 和 小 的 抗 动 ( 即 小 的 能 量 扰 劲 ) 只 可 能 导致 
小 的 估计 误 盖 (误差 信号 ) 。 用 精确 的 数学 术语 ，LMS 算法 按照 太 准 则 (或 最 小 最 大 准则 ) 是 最 
优 的 (Hassibi et al. ,1993,1996)。 在 后 意义 下 的 最 优 几 基本 原理 要 对 付 最 坏 情况 : 

如 果 你 不 知道 体面 对 的 是 什么 ， 计 划 最 坏 的 情况 并 优化 它 。 

长 期 以 来 LMS 算法 被 当 作 梯 度 下 降 法 的 瞬时 通 近 ， 但 是 ，LMS 的 履 * 最 优 人 性 为 这 个 广泛 
应 用 的 算法 提出 了 一 个 严格 的 基础 。 特 别 ， 它 解释 算法 在 枉 定 和 不 稳定 环境 下 的 令 人 满意 工 
作 的 能 力 。 这 里 “不 稳定 "环境 是 指 统计 特性 随时 间 变 化 的 环境 。 在 这 样 一 个 环境 下 ， 最 优 的 
Wiener 解 随 时 间 变 化 ，LMS 算法 现在 有 了 一 个 附加 任务 一 一 根 踪 Wiener 滤波 器 参数 的 变化 。 

LMS 算 法 的 主要 局 限 性 是 收敛 速度 较 慢 ， 并 有 旦 对 输入 特征 结构 的 变化 反应 较 灵 敏 
《Haykin，1996)。LMS 算法 一 般 需 要 输入 空间 维 数 十 倍 的 选 代 次 数 才能 达到 稳定 状态 。 当 输 
人 空间 维 数 较 高 时 缓慢 的 收敛 速度 会 变 得 特别 严重 。 至 于 对 环境 条 件 的 变化 反应 很 灵敏 ， 
LMS 算法 对 输入 向 量 x 的 相关 矩阵 及 的 条 件数 或 特征 值 数 布 的 变化 反应 特别 灵敏 。R. 的 条 
件数 记 为 X(R.)， 定 义 如 下 : 


























_ ju 
x(RJ) = 党 (3.45) 


这 里 ae 和 )m 分 别 是 撼 阵 &. 的 最 大 和 最 小 特征 值 。 当 输入 向 量 xm) 所 属 的 训练 样本 是 病态 
情况 时 ， 也 就 是 当 条 件数 X(R.) 呈 较 大 ，LMS 算法 对 条 件数 yx (R.) 安 化 的 灵敏 变 得 特别 严 
重 。 注 意 LMS 算法 的 Hessian 怎 阵 定义 为 代价 函数 (w) 对 w 的 二 阶 导数 ， 它 等 于 相关 算 阵 
有; 请 见习 题 3.8。 因 此 ， 在 这 里 的 讨论 中 ， 我 们 用 Hessian 矩阵 替换 相关 矩阵 Re 所 有 讨论 
仍然 成 立 。 
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3.6 学 习 曲线 

一 个 检验 LMS 算 法 或 一 个 普通 自 适应 滤波 器 的 收敛 行为 的 非 正 式 方法 是 绘制 滤波 器 在 
变化 环境 条 件 下 的 学 习 曲 线 。 学 习 曲 线 是 绘制 估计 误差 的 均 方 值 E。( mn) 关于 迁 代 次 数 n 的 
图 像 。 
设想 - -个 试验 涉及 一 个 滤波 器 总 体 ， 每 个 滤波 器 在 特殊 算法 控制 下 运行 。 假 设 算法 的 细 
节 ， 包 括 初 始 化 ， 对 所 有 滤波 器 是 一 样 的 。 滤 波 器 之 间 的 差异 是 来 源 于 可 用 的 训练 样本 的 输 
人 向 量 x(n) 与 期 望 响应 4(m) 的 抽取 的 随机 方式 不 同 。 对 每 一 个 滤波 器 我 们 画 出 估计 误差 
《 即 期 望 响应 与 实际 滤波 器 输出 之 差 ) 的 平方 值 关于 选 代 次 数 的 图 像 。 一 条 样本 学 习 曲 线 由 品 
声 指 数组 成 ， 史 声 来 源 于 滤波 器 固有 的 随机 人 性。 为 了 计算 总 体 平移 学 习 曲 线 ( 即 轴 (an) 关 于 
的 图 像 ) ， 我 们 利用 试验 中 涉 波 器 总 体 的 样本 学 习 曲 线 的 平均 ， 从 而 平滑 噪声 的 影响 。 

假设 白 适 应 滤波 器 是 稳定 的 ， 我 
们 发 现 总 平均 学 习 曲 线 是 从 由 初始 条 
件 决定 的 一 个 很 大 的 值 。(0) 开 始 ， 然 0) 
后 以 某 种 速率 下 降 ， 此 速率 由 滤波 器 
的 使 用 种 类 决定 ， 最 后 收 伍 到 一 个 稳 
冠 座 g。 (wm )， 如 图 3-4 所 示 。 在 学 习 。 册 
曲线 的 基础 上 我 们 能 够 定义 自 适 应 滤 ”办 总 
波 器 的 收敛 速率 为 8 ( =) 减少 到 任意 巷 ” 
一 个 选 定 值 ( 例 如 原始 值 。(0) 的 
109%6 ) 所 需 的 迭代 次 数 ao 

另 -个 由 学 习 蝎 线 扒 出 的 有 用 的 ago 二 
自 适 应 滤波 器 特性 是 误 调 节 (misadjust- 人 
menD) ， 记 为 。 令 虽 w 表示 Wiener 滤 ea 一 | 4 
波 器 产生 的 最 小 均 方 误差 ， 它 在 已 知 
相关 矩阵 取 和 互相 关 疝 量 r。 值 的 基础 
上 设计 。 我 们 可 以 定义 自 适应 滤波 器 图 3-4 INMS 算法 的 理想 学 习 则 线 
的 误 调节 如 下 (Widrow and Steams,1985; Haykin, 1996) : 

辊 (ee) - 多 mw 归 (o) 


人 = 一 划 = 计 


误 调 节 作 是 一 个 无 量 纲 的 量 ， 它 用 来 衡量 自 适 应 滤波 器 在 均 方 误差 意义 下 和 最 优 有 多 近 。 相 
对 单位 1 来 说 汶 越 钞 ， 算 法 的 和 白 适 庶 过 滤 行 为 就 越 精 确 。 通 常 把 误 调 节 惟 表示 为 百分比 形 
式 。 所 以 ， 例 如 一 个 10% 的 误 调节 意味 着 白 适应 滤波 器 (在 适应 完成 后 ) 产 生 一 个 比 相 应 的 
Wiener 滤波 髓 产生 的 最 小 均 方 误 差 旬 .大 1096 的 均 方 误差 。 这 种 情况 在 实际 中 通常 被 认为 是 
令 人 满意 的 。 

另 一 个 LMS 算法 的 重要 特 件 是 稳定 时 间 (setting time)。 但 是 ， 对 稳定 时 间 并 没有 惟一 的 
定义 。 例 站 ， 我们 可 以 用 具有 给 定 平 均 时 间 常 数 r, 的 单 指数 函数 曲线 来 逼近 学 习 曲 线 ， 然 
后 利用 所 得 的 r 当 作 稳 定时 间 的 粗略 度量 。rw 值 越 小 ,稳定 时间 就 越 快 ( 即 LMS 算法 越 快 收 












































































































































收 敏 速率 送 代 次 数 


-1 (3.46) 
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对 于 ,个 较 好 程度 的 通 近 来 说 ，LMS 算法 的 误 调节 .以 是 与 学 习 率 参数 成 焉 比 的 ， 而 平 
均 时 间 常 数 .是 与 学 习 率 参数 ?成 反比 的 (Widmw and Steams,1985; Haykin,1996 )。 我 们 因此 
有 这 样 一 个 矛盾 的 结果 : 如 巢 降 低 学 习 率 参数 使 得 误 调 节 下 降 ,， 那 么 LMS 算法 的 稳定 时 间 
将 增加 。 反 过 来 ， 如 果 增 加 学 习 率 参数 加 速 学 习 过 程 ， 那 么 误 调 节 也 增加 。 因 此 在 设计 LMS 
算法 时 对 学 习 参 数 # 的 选择 必须 特别 注意 ， 这 样 才能 得 到 一 个 满意 的 整体 性 能 。 

3.7 学 习 率 退火 进度 
ILMS 算法 过 到 的 困难 可 归 因 于 学 习 率 参数 在 计算 过 程 中 保持 不 变 ， 表 示 为 
全 m) = 对 所 有 (3.47) 
这 只 是 学 习 率 参数 假设 最 简单 的 可 能 形式 。 相 反 。 在 Robbins 和 Monro 有 关 随 机 通 近 的 经 虹 
论文 中 (1951) ， 学 习 率 参数 是 随时 间 改 变 的 。 在 随机 前 近 文献 中 最 常用 到 的 学 习 率 参数 随时 
疝 变 化 的 形式 是 
































Tan) = 二 (3.48) 


这 里 “是 常数 。 这 样 一 个 选择 确实 是 够 保证 随机 逼近 算法 的 收 剑 性 (Liang,1977; Kushner and 
Clark,1978 )。 但 是 ， 当 常数 。 较 大 时 ， 对 于 较 小 的 ”参数 有 可 能 出 现 参数 放大 的 危险 。 

作为 等 式 (3,47} 和 (3.48) 的 替代 物 ， 我 们 可 以 使 用 Darken and Moody(1992) 定 义 的 搜寻 后 
收 敏 进度 (searech-then-converge schedule) 























如 za) = 区 《3.49) 


这 里 加 和 上 是 用 户 选择 的 常数 。 
在 自 适应 的 早期 阶段 ， 即 选 代 次 
数 ”相对 搜寻 时 间 常 数 = 较 小 时 ，。 " 吕 标准 LMS 算 法 
学 习 率 参数 人 mn) 近似 等 于 加 ， 算 

法 运行 实际 上 也 是 与 “标准 "LMS 加 
算法 一 样 的 ， 如 图 3-5 所 示 。 因 
此 ， 通 过 在 允许 范围 内 选择 一 个 
较 大 加 ， 我 们 希望 对 滤波 器 的 
调 权 值 能 找到 在 一 组 较 好 的 值 并 
在 其 中 上 下 浮动 。 然 后 ， 当 选 代 
次 数 = 比 搜寻 时 间 常 数 r 大 时 ， 
学 避 率 参数 近似 为 cn， 这 里 “= 
rip， 如 图 3-5 所 示 。 算 法 现在 以 
一 个 传统 的 随机 逼 近 算 法 运行 ， 
且 权 伟 收 和 敛 到 它们 的 最 优 值 。 这 
样 搜寻 后 收敛 进度 具有 把 标准 ”oom 
LMS 算法 的 期 望 特征 和 传统 随机 

台 近 理论 结合 起 来 的 潜力 。 图 3 5 学 习 率 进 火 进度 
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3.8 感知 器 


我 们 现在 进 和 本章 的 第 二 部 分 ， 处 理 Rosenblat 的 感知 器 ， 以 后 都 简称 为 感知 器 (perceptmn) 
前 面 几 节 描 述 的 TMS 筑 法 建立 在 一 个 线性 神经 元 上 ， 而 感知 器 建立 在 一 个 非 线 性 神经 元 上 , 
即 神经 元 的 MeCulloch-pits 模型 。 我 们 回忆 第 1 
章 里 讲 的 这 种 神经 元 模型 由 一 个 线性 组 合 器 利 随 
后 的 硬 限 幅 器 (执行 一 个 符号 函数 ) 组 或 ， 如 网 
3-6 所 未。 神经 元 模型 的 求 和 节点 计算 应 用 于 突 输入 
触 上 的 输入 的 一 个 线性 组 合 ， 同 时 也 合并 一 个 外 
部 的 应 用 偏 置 。 这 个 计算 得 出 的 和 ， 也 就 是 诱导 
局 部 域 ， 被 用 到 一 个 硬 限 幅 器 。 于 是 当 硬 限 幅 器 
和 输入 为 正 时 ， 神 经 元 输出 + ]， 反 之 则 输出 ~ 1 图 3-6 感知 器 的 符号 流 财 
在 图 3-6 的 符号 流 图 模型 中 ， 感 扼 器 的 突 触 权 值 记 为 w ，xz ，…，wn。 相应 地 ， 用 于 
感知 器 的 输入 量 记 为 m ， 加 ，…，xm。 外 部 应 用 偏 置 记 为 5 。 从 这 个 模型 我 们 发 现 看 限 幅 
器 输入 或 神经 元 的 诱导 局 部 城 是 


输出 
项 限 幅 器 > 
































下 它 六 we 是 沁 (3.50) 

感知 器 的 目的 是 把 外 部 应 用 刺激 ma ， 刀 ，…，xu 正确 分 为 BE 和 两 类 。 分 类 规则 是 : 如 

果 感 知 器 输出 y 是 + 1 就 将 zj ， 辐 ，…，m 表示 的 点 分 人 类 4, ， 如 果 感 知 器 输出 y 是 -1 
则 分 人 @。 

为 了 进一步 观察 模式 分 类 器 的 行为 ， 一 般 要 在 m 维 信和 号 空间 中 画 出 决策 区 域 图 ， 这 个 

空间 症 由 m 个 输入 变量 zx ， 因 ，…，j 张 成 的 。 在 最 简单 的 感知 器 中 有 被 一 个 超 平面 分 开 


的 两 个 决策 区 域 ， 此 超 平面 定义 为 
立 wa +5=0 (3.51) 


对 两 个 输入 变量 和 利 2 的 情况 已 在 图 3-7 中 举例 说 
朋 ， 图 中 的 决策 边界 是 直线 。 位 于 边界 线 上 方 的 点 
(on ,2) 分 人 4 类 ， 位 于 边界 续 下 方 的 点 (zz) 分 
人 类 。 注 意 这 里 偏 置 》 作 用 仅仅 把 决策 边界 从 原 
点 移 开 。 

感知 器 的 罕 触 权 值 ww ，w ，…，a 可 以 通过 
多 次 迭代 达到 适应 。 对 于 自 适 应 性 我 们 可 以 使 用 通 
称 为 感知 器 收 伍 算 法 的 误差 修正 规则 。 


3.9 感知 器 收 伍 定 理 


为 了 导出 感知 器 误差 修正 学 习 算法 ， 我 们 发 现 图 3.7 作为 一 个 两 维 两 类 模式 分 类 
处 理 图 3-8 中 的 修改 的 信号 流 图 更 方便 。 在 这 个 与 问题 的 决策 边界 的 一 个 超 平面 的 实例 
图 3-6 中 模型 等 价 的 第 二 个 模型 中 ， 偏 置 5(n) 被 当 《在 这 个 例子 中 超 平面 是 一 条 直线 ) 











决策 边界 
+ WA 十 力 = 介 





影 及 感 负 可 5 





作 一 个 等 于 + 1 的 固定 输入 量 驱动 的 突 触 权 值 。 有 部 = 衬 





我 们 因此 定义 {m + U x 1 输入 向 量 ao0= 避 
(BR) = [+ 13 (m) za( 靖 ) xm( 太 ) 7 如 和 
这 里 ” 表示 使 用 算法 时 的 选 代步 数 。 相 应 地 我 输入 大 遇 吕 W”) 
们 定义 Cm + 1)x1l 权 值 向 量 人 
W(n) = [Cn),at(na) sio(a) ytzon(P)]7 ”线性 组 合 器 
因此 ， 线 性 组 合 器 的 输出 可 以 写成 紧凑 形式 


oO = (mn) = wr(n)x(n) (3.52) 图 3-8 等 价 的 感知 名 信号 演 图 ; 为 
名 清 估 起 见 省 路 了 对 时 间 的 依 加 性 

这 里 wo(n) 表 示 偏 置 5(n)。 对 固定 的 mn。 等 式 
wrx=0 在 有 关 ，z，…， 的 mm 维 空间 中 (对 某 些 规定 偏 置 ) 室 义 『-- 个 超 平面 ， 它 就 是 
两 个 不 同 答 入 类 之 间 的 决策 平面 

为 了 感知 器 正确 工作 ，@， 和 v。 两 个 类 必须 是 线 件 可 分 的 。 这 意味 着 待 分 关 模 式 必 须 分 
离 得 足够 开 以 保证 决策 平面 是 超 平面 。 这 个 要 求 对 两 维 感知 器 的 情形 如 图 3-9 所 示 。 在 图 
3-9a 中 两 个 类 %， 和 4, 分 离 得 足够 开 ， 使 得 我 们 能 画 一 个 超 平 麻 ( 在 此 例 中 是 一 条 直线 ) 作 为 
决策 边界 。 但 坚 ， 假 如 允许 两 个 类 6， 和 4, 靠 得 太 近 ， 如 图 3-9b 所 示 ， 它 们 就 变 成 非 妈 狂 可 
分 的 ， 这 种 情况 超出 了 感知 器 的 计算 能 力 。 


决策 边界 
































图 3-9 
引 一 对 线性 分 高 模式 P)… 对 非 线性 分 离 模式 


假设 感知 器 的 输入 变量 来 源 于 两 个 线性 可 分 类 。 设 和 , 为 训练 向 量 x (1 ，z (2)，… 中 
扁 于 类 4, 的 向 量 组 成 的 子 集 ，%， 表示 训练 向 量 凡 (1)， 罗 (2)，… 属 于 类 4, 的 向 重组 成 的 子 
集 。 吧 和 &, 的 并 集 是 整个 训练 集 %。 给 定向 量 集 %,， 和 8 来 训练 分 类 器 ， 训 练 过 程 涉及 对 权 
值 向 量 w 的 调整 使 得 两 个 类 &， 和 %:, 线性 可 分 。 也 就 是 ， 存 在 一 个 权利 向 量 只 具有 以 下 性 质 

wx > 0 对 属于 类 46 的 等 个 输入 向 量 x 
wrxs0 对 属 本 类 %, 的 每 个 输入 向 量 x 
在 式 (3.53) 的 第 二 行 中 当 wx =0 时 我 们 随意 地 选择 输入 向 量 x 属于 类 %@:。 给 定 训 缘 向 量子 集 
多 ， 和 &: ， 简 单 感知 器 的 训练 问题 就 是 找到 一 个 权 值 向 量 满足 式 (3.53) 中 的 两 个 不 等 式 。 
使 基本 感知 器 的 权 值 向 量 自 适 应 的 算法 现在 可 以 用 以 下 公式 表述 : 


(3.53) 
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1. 候 如 训练 集合 的 第 ”个 成 员 xm) 根据 算法 中 的 第 ” 次 选 代 的 权 值 向 量 w(n ) 正 确 分 
类 ， 那 么 感知 串 的 权 值 向 量 按 下 述 规则 不 会 修改 : 
wan+l)=w(n) 假如 wz?xfn) > 0 且 xfn) 属于 类 q， 





3.54 
WwW 人 (ad+1i) = mm) 假如 wrx(n) < 0 县 xm) 属于 类 多， ) 

2. 否则 ， 感 知 器 的 权 值 向 量 根 据 以 下 规则 更 新 : 
责 ( 有 +1) = 到 (于 ) 一 优 肥 )KC)》 假如 wa)x(r) > 0 且 x(nz) 属于 类 人 本 


wa+l) = ww(n) + 从 mn)x(n) 假如 wrCn)x(n) 三 0 且 x(n) 属于 类 %， 

这 里 学 习 秦 参数 水 m) 榨 制 在 第 = 次 迁 代 中 对 权 值 向量 的 调节 。 

假如 共 m)》 = ?>0， 这 里 是 与 迁 代 次 数 无关 的 常数 ， 我 们 有 一 个 感知 器 的 男 定 增 量 
自 适 应 规则 。 

后 面 我们 首先 证 明 当 = 1 时 固定 增 量 自 适 应 规则 的 收 敏 性 。 很 明显 1 的 具体 值 是 不 重 
要 的 ， 只 要 它 是 正 的 。?z1 时 的 值 不 影响 模式 可 分 性 而 仅仅 改变 模式 向 量 。 对 于 兴 m) 变 化 
的 情况 稍 后 考虑 。 

给 出 的 证 明 针 对 初始 条 件 w(0) = 0。 假 设 wr(z)x(r)<0 对 m=1，2，…， 且 输 和 向量 
x(m 1) 属于 子 集 % 。 这 样 ， 既 然 式 (3.53) 的 第 二 个 的 条 件 不 满足 ， 那 么 感知 器 不 能 正确 地 对 
问 量 x(1) ，x(2)，… 进 行 分 类 。 在 常量 录 zn) = 1 的 情况 下 ， 我 们 可 以 利用 式 (3.55) 的 第 二 行 
写作 




















wn+1l) = wz)+xR) 对 xn) 属 于 类 46， (3.56) 
给 定 初 始 条 件 w(0) = 0， 我 们 可 以 选 代 求解 这 个 关于 w(m + 1) 方程 得 到 结果 
wma+i) = XI)T+X2) 二 +X() (3.57) 


因为 假设 类 6， 和 6: 为 线性 可 分 的 ， 对 属于 子 集 % 的 向 量 XI) ，x(2) ，…，xX(n) 的 不 等 式 
方程 wx(n) >0 存 在 一 个 解 mm。 对 固定 解 mw ， 我 们 可 以 定义 一 个 正 数 w， 


， 了 
ea = ,四 XCnm) 《3.58) 


因 光 ,在 式 (3.57) 了 边 同 乘 行 向 量 mi ， 得 到 
w+l = WwWx)+wx(2)+ +wWrx0n) 
所 以 ， 依 据 等 式 (3.58) 中 的 定义 ， 我 们 有 
w+1) > na (3.59) 
下 面 利 用 众所周知 揭 Cauchy-Schwarz 不 等 式 。 给 定 两 个 向 量 mw 和 wW(z + 1)，Cauchy-Schwarz 
不 等 式 表述 为 





wa+Dl [ww(n+D (3.60) 
这 里 外" 外 表示 所 包含 的 变 元 向 量 的 欧 几 里 德 范 数 ， 内 积 wwfn + 旭 是 标量 。 从 式 (3.59) 得 
到 [Www(na+ 1 了 大 于 或 等 于 立 。 从 式 (3.60) 我 们 注意 到 | wm 上 下 wtn+1) 1 大 于 或 等 
于 [ww(n+ 1) 了 了。 这 样 得 到 








| 人才 w(a+1D1 天 时 


2 


或 等 价 地 有 | w(m+ DT 
0 


上 wo 人 


下 面 我 们 遵循 另 一 种 发 展 路 线 。 特 别 地 ， 可 以 把 式 (3.56? 改 写 为 





《3.61) 
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WE+1) = 可 下) + 大) 对 站 = 1,…, 且 x( 有 入 8 (3.62) 
通过 对 式 (3.62) 两 边 则 取 欧 几 里 德 范 数 的 平方 ， 我 们 得 到 
和 GE+1)12 = CE 有 + 二 ( 才 ) 有 2 二 27 下) 天) (3.63) 


但 是 ， 在 感知 器 对 子 集 %, 中 的 向 量 X 提 不 能 进行 正确 分 类 的 假设 下 ， 我 们 有 w7 (ED)gx(A) < 

0。 因 此 从 等 式 (3.63) 中 得 到 

Www Das 1wCol2y 1xb1a 

或 等 价 地 有 |w(k+1D12- 1w(EDiaslw(Dl2 -1 G.64) 

把 站 =1，…， 情况 下 的 这 些 不 等 式 和 假设 初始 条 件 w(0) =0 结合 起 米 ， 得 到 不 等 式 
lwcasDlsy1lx0Dlas np (3.65) 

这 里 是 一 个 正 数 ， 定 义 为 





= | xD | (3.66) 

式 (3.65) 表明 权 值 向 量 wkta + 1) 的 欧 几 里 德 范 数 平方 的 增长 至 多 只 能 和 迭代 次 数 n 堪 成 线 
性 关系 。 

当 m 有 足够 大 的 值 时 ， 式 (3.65) 的 第 二 个 结果 显然 是 与 式 (3.61) 的 结果 相 矛 盾 。 实 际 
上 ， 我 们 可 以 说 = 不 能 大 于 某 个 值 aw， 值 am 使 得 式 (3.61) 和 (3.65) 等 号 都 成 立 。 这 里 ， 
mm 是 下 面 方程 的 解 : 

了 

Te 


给 定 解 向 量 mm ， 解 出 an， 我 们 求 出 


= 是 史 二 (3.67) 


这 样 我 们 证 明了 对 所 有 的 mn， 从 nm) =1. 且 w(0) =0， 如 果 解 向 量 w 存在 ， 那 么 感知 器 权 值 
的 适应 过 程 最 多 在 nn 次 选 代 后 终止 。 从 式 (3.58)，(3,66) 和 (3.67) 注 意 到 mo 或 ns 的 解 并 
不 惟一 。 
我 们 现在 可 以 叙述 感知 器 的 固定 增 量 收 敏 定理 (Rosenblatt,1962) : 

设 训练 向 量 的 子 全 吧 ， 和 8 是 线性 可 分 的 ， 感知 器 的 输入 来 自 这 两 个 子 集 。 感 知 器 在 条 
个 m 次 选 代 后 政 效 ， 收 绕 是 在 如 下 意义 下 : 

Wo) = mno+1l) = WwW(no+T2) = 

是 对 no 么 mn 的 解 向 量 。 
下 面 考虑 当 信 m) 变 化 时 ， 单 层 感知 器 自 适应 的 绝对 误差 修正 过 程 。 特 别 ， 设 久 fn) 是 满 
足下 式 的 最 小 的 整数 : 




















从 m)x7(n)x(n) >1WCn)x(n) 1 

利用 这 个 过 程 我 们 发 现 如 果 第 n 次 碗 代 时 的 内 积 w"(n)x(n) 存 在 符号 错误 ， 那 么 第 w+ 1 次 
适 代 中 w" (nz+1)x(n) 符 号 就 会 是 正确 的 。 这 说 明 如 果 w"(n)x(z) 有 符号 错误 ， 我 们 可 以 通 
过 设 xn+ 1)=xpn) 来 改变 第 n+ 1 次 选 代 时 的 训练 次 序 。 换 句 话 说， 每 个 模式 重复 呈现 给 
感知 器 直到 模式 正确 分 类 。 


























[ 囊 
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[De 注意 当 w(0) 的 初始 值 不 为 零 时 ， 仅 仅 是 导致 收 伍 需要 的 选 代 次 数 或 增 丰 或 减少 ， 这 依 
条 于 w(0) 与 解 m 的 相关 如 度 。 无 论 w(0) 的 值 是 多 少 ， 感 知 器 都 可 以 保证 是 收敛 的 。 
在 表 3-2 中 我 们 对 感知 器 收敛 算法 做 出 概述 ( Lippmann,1987)。 在 此 表 第 三 步 计 算 感知 器 
的 实际 响应 中 使 用 的 记号 ssn(') ， 表 示 符 号 函数 (signum function ) : 
+1 若 w>0 
so 全， 车，<0 
这 样 我 们 可 以 把 感知 器 的 其 化 反 设 y(n) 表 示 为 以 下 的 简洁 形式 : 
7y(Cnp) = sgn(w7Cn)x(n)) 《3.69)》 


表 32 感知 器 收敛 算法 概述 








(3.68) 





释 量 和 人 参数， 
x(n) = m + 上 维 输入 向 基 
= [+ (ma(n ms(a)1 
WLmJ) = m+ 上 维权 值 向 量 
[5 人 asiaatm rantm 7 
闪 m) = 偏 半 
7a) = 实际 响应 (量化 的 ) 
dm) = 期 户 响 应 
1= 学 习 率 参数 ,一 个 出 1 小 的 正常 数 
1. 初始 化 。 设 w(0) = 0。 对 时 刻 n = 1，2， ,执行 下 列 计算 。 
2. 激活 。 存 时 间 步 *， 通 过 提供 过 续 值 输入 向 量 s(n) 和 期 望 啊 应 &《m) 来 激活 感知 器 。 
3. 计算 实际 响应 。 计 算 感知 器 的 实际 响应 ; 
7 = 串 [wr(m)xm] 
这 里 s(… ) 是 符号 函数 
4. 权 值 向 量 的 自 适 应 。 更 新 感知 器 的 权 值 向 量 : 
n+) = wta)+rTetn)- yn]x(z) 
这 里 
全 若 xn) 属于 类 从 ， 
dm)》 = 
-1 苦 慌 m 属于 类 。 





运 5 继续。 时 间 步 "增加 1， 返 回 第 2 步 - 


注意 输入 向 量 x(=) 是 (m+1) xl 向量， 它 的 第 一 个 元 素 在 整个 计算 跨 定 为 + 1。 相 应 
地 ， 权 值 向 量 wtn) 是 (m +1) x1 向 量 ， 它 的 第 一 个 元 素 等 于 偏 置 5(n)。 表 3-2 中 的 另 一 个 
要 点 是 : 我 们 引信 一 个 量化 期 望 响 应 &Kn) ， 定 义 为 
an - 人 若 x(n) 属于 类 0) 
一 1 若 x(n) 属于 类 4 
因此 ， 权 值 向 量 w(n) 的 自 适应 是 以 误差 修正 学 习 规 则 (emor-eorection leaming mle) 形 式 下 的 累 
加 ， 























mW(n+1l) = w(n)+Ldn) -yn)]x0n) (3.71) 
这 里 ?是 学 习 率 参数 ， 差 d(z)] - y(m) 扮 演 一 个 误差 信号 的 角色 。 学 习 率 参数 是 正常 数 ， 且 
0<1<1lo。 当 在 这 个 区 间 里 给 了 外 赋 一 个 值 时 ， 我 们 必须 记 住 两 个 互相 冲突 的 需求 (Lippmann， 
1987 ); 
*。 过 去 输入 的 平均 值 提供 一 个 稳定 的 权 值 估计 ， 这 需要 一 个 较 小 的 
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。 相对 于 产生 输 人 向 景 x 的 过 程 的 固有 分 布 的 实时 变化 ， 快 速 自 适应 需要 较 大 的 加 
3.10 Gauss 环境 下 感知 器 与 Bayes 分 类 器 的 关系 


感知 器 与 一 类 通称 Bayes 分 类 器 的 经 典 模式 分 类 器 具有 一 定 联 系 。 在 Causs 环境 下 ， 
Bayes 分 类 器 退化 为 一 个 线性 分 类 器 。 这 与 感知 器 采用 的 形式 是 一 样 的 。 但 是 ， 感 知 器 的 线 
性 特性 并 不 是 由 于 Gauss 假设 而 共有 的 。 这 一 节 我 们 研究 这 种 联系 ， 并 借 此 深 人 研究 感知 器 
的 运行 。 我 们 首先 对 Bayes 分 类 器 作 一 个 简单 的 复习 。 


Bayes 分 类 器 


在 Bayes 分 类 器 和 Bayes 假设 检验 过 程 中 .我 们 最 小 化 平均 风险 ( 记 为 偶 )。 对 两 类 问题 
《 记 为 类 和 类 46, ) ，Van Trees(1968) 定 义 的 平均 风险 为 : 


入 = op AiG 1 史 ) ex 二 cp 1 ) dx 











《3.72) 
十 op Ac 上 鸣 ) dx 二 cp Atx | dx 
这 里 各 项 的 定义 如 下 ， 
Pi = 观察 向 量 X( 表 示 随 机 向 量 和 的 实现 值 ) 取 自 子 空间 &, 的 先 验 概率 ， 这 里 1= 1，2 且 
串 十 Pa=Ie 
om = 当 类 $, 是 真实 的 类 ( 即 观察 向 最 x 是 取 自 子 空间 8, ) 时 决定 支持 由 子 空间 %, 代表 的 
类 & ,的 代价 ，(iy ) = 1，2。 
(xl@,) = 随机 疝 基 的 条 件 概率 密度 函数 ， 假 设 观 察 向 量 x 取 自 子 空间 %,，;i = 1，2。 
式 (3.72) 右 边 的 头 两 项 表示 正确 决策 ( 即 正确 分 类 )， 从 而 最 后 两 部 分 代表 不 正确 决策 ( 即 错 
误 分 类 )。 每 个 决策 通过 两 个 因子 乘积 加 权 ， 作出 决策 的 代价 和 发 生 的 相对 频率 ( 即 先 验 概 
率 )。 
目的 在 于 确定 .一 个 最 小 化 平均 风险 的 策略 。 因 为 我 们 需要 作出 这 样 的 决策 ， 在 全 部 观察 
空间 % 中 每 个 观察 向 量 x 必须 被 设 定 或 者 属于 &%, 或 者 属于 %。 。 因 此 
史 = 8 +2. (3.73) 
相应 地 ， 我 们 可 以 把 式 (3.72) 改 写 为 等 价 的 形式 


出 = op 并 GT@Jax+y cap 大 G1@)d 











(3.74) 
+ ap 160Ddx + cam| ex1G)dx 
这 里 ,< cn 且 co < co。 现在 我 们 注意 到 下 述 事实 
Aeroa -| ele)aarl (3.75) 














此 ， 臣 (3.74) 灾 为 
角 = cap + oops+ 人 [pos - orl@) -mo -on 六 区 dz 03.70) 
式 (3.76) 右 边 的 头 两 项 代表 一 个 国定 代价 。 因 为 需要 最 小 化 平均 风险 鹃 ， 我 们 从 式 (3.76) 得 
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到 以 下 最 优 分 类 的 策略 : 

1. 所 有 使 被 积 六 数 ( 即 方 播 导 里 的 表达 式 ) 为 负 的 观察 向 量 x 的 值 邦 归于 子 空间 史 ,( 即 类 

[到 名 )， 因 为 此 时 积分 对 风险 多 有 一 个 负 的 贡献 。 

2. 所 有 使 被 积 函 数 为 正 的 观察 向 量 x 的 值 都 必须 从 子 空间 % 中 排除 ( 即 分 配给 类 < ) ， 
内 为 此 时 积分 对 风险 吕 有 一 个 正 的 贡献 。 

3. 使 被 积 函 数 为 零 的 x 的 值 对 平均 风险 锦 没 有 影响 ， 因 此 可 以 任意 分 配 。 我 们 假设 这 些 
点 分 配给 子 空 间 %;( 即 类 < ) 。 

在 这 个 基础 上 ， 我 们 写 出 Bayes 分 类 器 公式 如 下 : 

候 如 条 件 

Pi(ea cn) 放 G1 多 ) > Pen -caiG) 
满足 ， 把 观察 向 量 X 分 配给 予 空间 吧 ( 即 类 吧 | ) 。 否 则 把 分 配给 8,( 即 类 吧 ，) 。 


为 了 简化 起 见 ， 定 义 





sx 
0 =) G77) 
和 Se G.78) 


量 A(xg) 是 两 个 条 件 概率 密度 函数 的 比 ， 被 称 为 似 然 比 (Hikelihood matio)。 量 $ 称 为 从 验 的 
阅 值 。 注 意 A( 妇 和 # 都 是 剧 正 的 。 根 据 这 两 个 量 ， 我 们 可 以 把 Bayes 分 类 重新 表述 为 : 


假如 对 一 个 观察 向 量 x， 似 然 比 A(x) 比 阔 值 5 大 ， 吉 把 X 分 配给 类 | ， 反 之 ， 分 配给 类 6:。 
图 3- 10a 是 一 个 描绘 Bayes 分 类 器 的 模块 图 。 此 模块 图 的 要 点 是 两 方面 的 


车 A(x) > 所 是 x 为 类 吧 
时 记 1 
一 | 


反之 、 分 配给 人 z 


所 


3 
著 jogACg > ok ， 本 z 为 闫 人， 
x w 扰 。 
| 让 人 革 上 2 人 | 北 入 加 
反之 ， 分 配 王 给 < 


le 路 
b 


图 3-10 ”Bayes 分 类 器 的 两 个 等 价 模型 
可 似 然 比 检验 b) 对 数 似 然 比 从 验 
1 进行 Bayes 分 类 器 设计 的 数据 处 理 被 完全 限制 在 似 然 比 A(x) 的 计算 中 。 
2, 此 计算 与 分 配给 先 验 概率 的 值 和 决策 过 程 中 的 代价 是 完全 无 关 的 。 这 两 个 量 仅仅 影 
响 病 值 ss 
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从 计算 的 观点 ,我们 发 现 使 用 似 然 比 的 对 数 比 使 用 伺 然 比 自身 方便 得 多 。 这 样 做 有 两 个 
型 由 。 首 先 ， 对 数 是 单调 函数 。 其 次 ， 似 然 比 A(x) 和 冰 值 丰 都 是 正 的 。 因 此 ，Bayes 分 类 器 
可 以 以 如 图 3-10b 所 示 的 等 价 形式 实现 。 由 于 明显 的 原因 ， 第 二 个 图 中 嵌入 的 检验 被 称 为 对 
数 伺 然 区 检验 。 





























Gauss 分 布下 的 Bayes 分 类 器 


现在 考虑 一 个 在 Causs 分 布下 遇 类 问题 的 特殊 情形 。 随 机 向 量 X 的 均值 依 种 于 和 是 属于 
类 @, 还 是 @, ， 但 愉 的 协 方差 阵 对 两 类 都 是 一 样 的 。 也 就 是 说 ， 
类 鸣 : 已 [X] = 肿 
二 [( 怀 -ID)X-h)7]=C 
类 吧 . ， 已 [X] = 号 
有 [(X-HX-i) =C 
协 方差 算 阵 避 是 非 对 角 的 ， 这 意味 着 取 白 类 6%， 和 类 %, 的 样本 是 相关 的 。 假 设 C 是 非 奇 
异 的 ， 这 样 它 的 逆 抵 阵 C-! 存 在 。 
在 这 个 背景 下 我 们 可 以 把 与 的 条 件 概 率 密度 函数 表示 如 下 : 
xl1e) = je - 去 (有 JrCTG 于- 1.2 (037 
这 里 m 是 观察 向 量 x 的 维 数 。 
进一步 假设 
1 两 关 6@， 和 ,的 概率 相同 : 











记 = pa = 去 (3.80) 
2. 错误 分 类 造成 同样 的 代价 ， 正 确 分 类 的 代价 为 零 : 
cl = ca 和 cl = cz = 《3.81) 
我 们 现在 有 了 对 两 类 问题 设计 Bayes 分 类 器 的 信息 。 具 体 地 ， 将 式 (3.79) 代 入 (3.77) 并 
取 自 然 对 数 ， 我 们 得 到 (简化 后 ) : 
logA(z) = - 半 (x -hrC (由 )+ 冯 ( 一 皮 )7C" (=- 钙 ) 
(3.82) 
= (iu -可 ) COx+ 村 Cn -MrCcou) 
把 式 (3.80) 和 式 (3.81) 代 入 式 (3.78) 并 取 自 然 对 数 ， 我 们 得 到 
logs = 0 (3.83) 
式 (3.82) 和 式 (3.83) 表 明 当前 问题 的 Bayes 分 类 器 足 线性 分 类 器 ， 如 关系 式 
了 一 丽 ?X 二 看 (3.84) 
所 示 ， 这 里 
y = logA(x) (3.85) 
机 = Cu 一 肥 ) (3.86) 


5 = 本 (5Crie -Cn) G3.87) 


[二 
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更 进一步 ， 分 类 器 由 “个 权 值 
在 式 (3,84) 的 基础 上 ， 我 
对 数 似 然 比 检验 措 述 如 下 ; 
假如 线性 组 合 器 (包括 偏 
观察 向 量 x 分 配给 类 吧 | 。 否 则 





杆 二 ) 的 输出 是 正 的 ， 把 
， 把 它 分 配给 类 吧 。， 


这 里 描述 的 Causs 环境 下 的 Bayes 分 类 器 的 运行 与 感 


知 器 是 类 似 的 办 为 它们 痢 
(3.71) 和 (3.84)。 但 是 ,在 它 
旦 重要 的 不 同 ， 这 必须 被 仔细 
， 感知 器 运行 的 前 提 足 待 分 模式 足 线 性 可 
的 模式 当然 是 和 机 重要 的 ， 因 此 它 介 
山 以 及 协 方差 矩阵 C 决定 的 。 重 酸 的 
特殊 情况 ( 即 维 数 mm = 1)。 当 输入 如 


3.11 








是 线性 分 类 器 ; 请 见 式 

们 之 间 还 是 有 一 些 细微 而 医 
检查 (Lippmamn , 1987) ; 

[分 的 。 导 出 Bayes 分 类 中 假设 两 个 Gauss 分 布 
不 是 可 分 的 。 重 鸽 的 程度 是 由 均值 向 量 mu 和 
性 质 如 图 3- 12 所 示 ， 这 是 对 一 个 随机 标 基 的 


去 了 半 


向 量 w 和 仿 置 》 的 爸 成 的 线性 组 合 器 构成 ， 如 图 3- 11 折 泵 。 
们 可 以 把 对 两 类 问题 的 





3-11 ”Gauss 分 类 器 的 信号 流 图 














所 示 是 不 可 分 旦 : 





分 布 是 重 玖 的 时 候 ， 感 知 











器 收 伍 算法 出 现 -个 问题 ， 因 为 两 类 间 的 决策 边界 可 能 会 持续 振荡 。 
Bayes 分 类 最 小 化 分 类 误差 概率 。 这 个 最 小 化 是 与 Gauss 分 布下 两 类 之 闪 的 重 釜 无 
关 。 例 如 ,在 图 3-12 中 的 特例 中 ，Bayes 分 类 使 决定 边界 总 是 位 于 Causs 分 布下 两 类 





人 和 4 的 交叉 点 上 。 


感知 器 收敛 算法 是 非 参数 的 ， 这 指 的 是 它 没有 关于 固有 分 布 形式 的 假设 。 它 的 运行 
是 集中 于 发 生 在 分 布 重 伙 地方 的 误 益 。 当 输入 由 非 线性 物理 机 制 产生 同时 它们 的 分 
布 是 严重 偏离 而 且 非 Causs 分 布 的 时 候 ， 算 法 将 工作 得 很 好 。 相 反 ，Bayes 分 类 器 是 


参 炊 化 的 ; 它 的 导出 是 建 
立 在 Gauss 分 布 的 假设 上 
的 ,这 可 能 会 限制 它 的 适 
用 范围 。 

感知 器 收 敏 算法 是 自 适应 
的 已 实现 简单 : 它 的 存储 
需求 仅 限于 权 值 集合 和 偏 
署 。 另 一 方面 ，Bayes 分 类 
器 设计 是 固定 的 ; 可 以 使 
它 变 成 自 适应 的 ， 但 代价 
是 增加 存储 量 和 更 高 计算 
复杂 性 。 


小 结 和 讨论 





决策 边界 


感知 器 和 使 用 ILMS 算法 的 自 适应 滤波 器 是 本 质 上 相关 的 ， 正 如 被 它们 的 权 值 更 新 所 表明 
的 那样 。 实际 上 ， 它 们 代表 基于 误差 修正 学 习 的 单 层 感知 器 的 不 同 实 现 。 术 语 * 单 层 "用 在 这 





里 是 为 了 才 示 两 考 的 计算 层 都 是 由 单 个 神经 元 组 成 的 一 一 因此 本 章 使 用 这 个 标题 。 但 是 ， 感 
知 器 和 DMS 算法 在 一 些 基本 方面 有 区 别 
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*。 LMS 算法 使 用 一 个 线性 神经 元 ， 而 感知 器 用 神经 元 的 MeCulloch-Piits 典 式 模型 。 
。 感知 器 的 学 习 过 程 执行 和 限 步 选 代 后 停止 。 相 反 ， 在 LMS 算法 中 发 止 持续 学 习 ， 这 
是 指 当 信 和 号 处 理 森 停止 时 学 习 就 不 停止 。 
一 个 硬 限 幅 器 构成 MeCulleeh-Pitts 神经 元 的 非 线性 元 素 。 很 容易 所 出 这 样 一 个 问题 : 如 
果 用 一 个 sigmoid 型 非 线性 代 替 硬 限 幅 器 ， 感 知 器 会 不 会 有 更 好 的 表 击 ? 结果 中 不 管 我 们 使 
骨 硬 限 幅 还 是 软 限 巾 作为 神经 元 模型 中 非 线性 源 ， 感 知 器 的 状态 稳定 的 决策 特征 基本 不 变 
《Shynk, 1990; shynk and Bershad,1991)。 因 此 我 们 可 以 正式 说 只 要 限制 为 由 线性 组 合 器 和 随后 
一 个 非 线性 元 素 给 成 的 神经 元 模型 ， 不 管 非 线性 使 用 什么 形式 ， 一 个 单 层 感知 器 都 只 能 在 线 
性 可 分 模式 上 进行 模式 分 类 。 
我 们 用 一 个 历史 注释 结束 单 层 感知 器 的 讨论 。 感 知 器 和 LMS 算法 大 约 在 20 世纪 和 年代 
晚期 间 时 出 现 。LMS 算法 真正 经 受 住 了 时 间 的 考验 。 实 际 上 ， 它 把 自己 作为 一 个 自 适应 信号 
处 理 的 主要 工具 (workhorse)， 因 为 它 实现 起 来 较 简便 ， 应 用 效率 也 高 。Rosenblatt 的 感知 器 的 
重要 性 很 大 程度 量 在 历史 方面 。 
对 于 Rosenblart 感知 器 的 第 一 个 真正 的 批评 是 由 Minsky and Selfidege(1961) 提 出 的 。Minsky 
和 Selfridse 指出 ，Rosenblatt 定义 的 感知 器 不 管 是 用 那 种 形式 都 不 能 推广 到 二 进 制 数 的 奇 从 校 
验 对 的 情况 ， 更 不 用 说 完成 一 般 的 抽象 。Rosenblatt 感知 器 的 计算 局 限 后 来 又 在 Minsky 和 
Paper 的 名 著 《 感 知 器 》 中 得 到 了 严格 的 数学 证 明 (1969,1988)。 在 给 出 一 些 出 色 的 和 非常 详细 
的 对 感知 器 的 数学 分 析 以 后 ，Minsky 和 Papert 证 明 ， 建 立 在 局 部 学 习 例 子 基 础 上 的 Rosenblatt 
感知 器 从 本 质 上 无 法 进行 全 局 的 泛 化 。 在 他 们 著作 的 最 后 一 章 ，Minaky 和 Papert 推测 他 们 发 
现 的 Rosenblatt 感知 器 的 局 限 性 对 它 的 ~- 种 很 特殊 的 变形 一 一 多 层 神 经 网 络 也 是 对 的 .下文 
摘录 于 他 们 著作 (1969? 的 13.2 节 ， 
尽管 (甚至 由 于 它 严重 的 局 本 ， 感 知 器 展示 了 自身 研究 价值 。 它 有 很 多 吸引 注意 的 优点 ; 它 的 线性 
性， 它 迷 人 的 学 习 法 则 ， 它 清楚 的 作为 - 类 并 行 计算 范例 的 简单 性 、 没 有 任何 理由 假定 这 些 优点 能 带 到 多 
层 感知 器 中 。 我 们 直觉 判断 推广 到 多 层 系统 也 不 会 有 好 结果 ， 但 是 对 于 这 一 点 我 们 认为 证 明 ( 或 否定 ) 它 是 
一 个 很 重要 的 需要 醋 究 的 问题 
这 个 结论 在 很 大 程度 上 导致 了 -个 一 直 持续 到 20 世纪 80 年 代 中 期 的 对 不 仪 是 感知 器 而 且 是 
一 般 神 经 网 络 计算 能 力 的 严重 坏 疑 。 
但 历史 已 经 证 明 Minsky 和 Papert 作出 的 推测 似乎 是 不 太公 正 的 ， 因 为 我 们 现在 已 经 有 很 
多 神经 网 络 的 高 级 形式 ， 它 们 的 计算 能 力 比 Rosenblatt 感知 器 蝇 得 多 。 例 如 ， 第 4 章 讨 论 的 
反 向 传播 算法 训练 的 多 层 感知 堪 ， 第 5 章 讨 论 的 径 向 基 函 数 网 络 ， 第 6 章 讨 论 的 支持 向 量 
机 ， 都 以 它们 各 自 的 方法 克服 了 单 层 感知 器 的 计算 局 限 性 。 


注释 和 参考 文献 


[1 Rosenblatt 预想 的 原始 感知 器 便 型 的 网 络 组 织 (1962) 有 三 种 类 型 的 单元 : 感知 单元 ， 联 
想 单 元 和 响应 单元 。 感 知 单元 和 联想 单元 之 间 的 连接 有 固定 的 权 值 ， 而 联想 单 和 元 和 响 
应 单元 之 间 的 连接 具有 变化 的 权 值 。 联 想 单元 扮演 的 是 设计 成 一 个 从 环境 输入 中 抽取 
模型 的 预 处 理 器 的 角色 。 就 仅 关 心 可 变 疏 值 而 论 ，Rosenblatt 的 原始 感知 器 的 运行 与 只 
有 一 个 响应 单元 ( 即 单个 神经 元 ) 的 特殊 情况 是 基本 一 致 的 。 

[2] 对 一 个 向 量 的 微分 
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[4] 


[5] 


设 所 由 ) 表 朱 参 数 向 量 w 的 人 洋 信 由 娄 站 下 的 导数 定义 为 如 下 向 量 : 


红 - [好 弛 | 
王 = 下 ,让 机 


这 里 普 是 向 量 w 的 维 数 。 下 面 师 种 情形 是 很 有 用 的 ， 
情形 1 函数 刀 wW) 定 义 为 内 积 ， 














此 ， 





mw) = ww = 立 sm 


1 - 2 
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或 等 价 地 ， 以 矩阵 形式 表示 : 


红 -=x (D 


情形 2 ” 数 几 w) 定 义 为 二 次 型 ; 


Fw) = wT7Rw -= 六 六 rm 


51 关 


这 里 ”是 严 x 严 答 阵 朋 的 第 乡 个 元 索 。 因 此 ， 


或 等 价 地 ， 以 矩阵 形式 表示 : 


及 = Rw (2) 


起 (1) 和 (2) 为 向 量 的 实 值 函 数 的 微分 棍 供 了 两 个 有 用 的 规则 。 


正定 矩阵 


一 个 严 x 严 矩阵 及 被 称 为 是 非 负 定 的 ， 如 果 它 满足 条 件 


ar7Ra > 0 对 任意 aE 网 " 


假如 条 件 中 的 不 等 式 满足 ， 撼 阵 及 被 称 为 是 正定 的 。 





正定 龟 阵 R 的 一 个 很 重要 的 性 质 是 它 是 非 奇异 的 ， 因 此 递 敌阵 R 存在 。 


正定 矩阵 R 的 另 一 个 重 刘 的 性 质 是 它 的 特征 值 或 特征 方程 det(R) =0 的 根 全 部 为 正 。 


鲁 棒 性 


豆 " 准则 是 由 Zames(1981) 定 义 的 ， 并 在 Zames and Francis(1983 ) 进 一 步 发 展 。Doyle et al. 
(1989) ，Green and Limebeer( 1995) 和 Hassibi et al.(1998) 也 对 这 个 准则 进行 了 讨论 。 
为 了 克服 LMS 算法 的 局 限 性 ， 即 收敛 速度 较 慢 和 对 相关 矩阵 Rs 的 条 件数 变化 反应 过 





于 灵敏 ， 我 们 可 以 使 








昌 递 归 节 小 二 乘 (yecursive leastrequares, RIS) 算 法 ， 它 利用 我 们 在 


3.4 节 中 描述 的 线性 最 小 二 乘 泪 波 器 进行 递归 实现 。RIS 算法 是 Kaiman 滤波 器 的 一 个 
特例 ， 后 者 被 认为 是 非 稳定 环境 下 最 优 的 线性 滤波 器 - 更 重要 的 是 ，Kalman 泪 波 器 计 
算 利 用 所 有 过 去 扩展 的 数据 并 包含 进行 计算 时 的 时 间 常 数 。 关 于 RLS 算法 以 及 RLS 算 
法 和 Kalman 滤波 器 的 关系 的 更 多 细节 ， 贿 见 Haykin(1996) 。Kalman 主 波 器 将 在 第 15 音 


中 讨论 。 
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习题 
无 约束 最 优化 
3.1 研究 包含 一 个 权 值 w 的 最 速 下 降 法 ， 考 虑 下 列 代价 函数 : 
屯 (oo) = 二 -re 和 


这 里 只， 上 和 都 是 常数 。 
3,2 考虑 代价 函数 





甸 (w) = 了 一 w+ 羡 wrRow 
这 里 o 是 常数 ,日 
0.8182 1 “0.8182 
ze 10.354 | R = [se 1 ] 


(a) 求 使 5(w) 达 到 最 小 的 最 优 值 w… 。 
(人 b) 对 下 列 两 个 学 习 率 参数 用 最 速 下 降 法 计算 w" : 
(09=0.3 
(im= 1.0 
对 每 一 种 情况 ， 画 出 权 值 向 量 w(”) 在 鸡 - 平 面 演 化 产生 的 轨迹 。 
提示 : (b) 部 分 中 情形 (i 和 情形 (这 的 轨迹 应 与 图 3-2 中 的 图 形 对 应 。 
3.3 考虑 式 (3.24) 的 代价 晤 数 ， 它 作为 式 (3.17) 中 定义 的 误差 平方 的 和 的 修正 形式 ， 
证 明 Gauss-Newton 方法 对 式 (3.24) 中 的 应 用 是 产生 式 (3.23) 描 述 的 权 值 更 新 。 
LMS 算法 
3.4 LMS 算法 中 输 和 向量 x(a) 的 相关 拖 阵 R, 定义 为 
R - 1 "3 引 
0.5 1 
定义 LMS 算法 在 均 方 收敛 下 的 学 习 率 参数 1 的 取 值 范围 。 
3.5 正规 化 LMS 算法 通过 以 下 对 权 值 向 量 的 递归 形式 表示 ， 


全 (m+1) = 合 (m) + 了 7 ae(n)x(ny) 
1xCa] | 


这 里 ?是 正常 数 且 | x(n) | 是 输入 向 景 xn) 的 欧 几 里 德 范 数 。 误 盖 e(m) 定 义 为 
ef(r) = dCn) - 命 r(n)X(C) 
这 里 &(n) 是 期 望 响 应 。 为 了 使 正规 化 LMS 算法 均 方 收 伐 , 证 明 
0<T<2 

3.6 _LMS 算法 用 来 实现 广义 旁 辩 消除 器 ， 如 图 2-16 所 示 。 建 立 系统 运行 的 方程 ， 假 没 
神经 网 络 使 用 的 是 单个 神经 元 。 

3.7 考虑 一 个 由 样本 zt -1)，xz(n -2)，…，x(a-mm) 组 成 的 输 和 向量 的 线性 预测 
器 ， 这 里 m 是 预测 阶 数 。 要 求 利 用 LMS 算法 得 到 输 人 样本 *(n) 的 预测 *(n)。 建 立 用 来 计 
算 预 测 器 的 抽 头 权 值 w ，za ，…，zon 的 递归 关系 式 。 

3.8 ”作为 误差 平方 和 副本 的 总 体 均值 被 看 作 代价 函数 ， 它 是 下 面 误差 信号 的 均 方 值 ; 
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TCD = 去 ELeta] = 二 ELCd(e) -(ow] 
(a) 候 设 输 和 向量 xCn) 和 期 望 响应 & nm) 来 白 一 个 稳定 环境 ， 证 明 
JW) = 让 一 + 了 wRw 
这 里 本 = 瑟 [e2(n)] 
ree = 吾 和 (na)dCa)] 
R = 互 [x(n)x7Cn)] 
(b) 对 这 个 代价 师 数 ， 证 明 梯度 向 量 和 玫 w) 的 Hessian 矩阵 分 别 为 如 下 形式 : 
色 = -ru + Rew 
下 = BR 

《ec) 在 LMS/Newton 算法 中 梯度 向 量 g 可 以 被 它 的 阵 时 值 替代 ( Widrow and Steams,1985 )。 

证 明 采 用 学 习 率 参数 1 时 这 种 算法 可 以 表示 如 下 ; 
请 (n+1) = 疝 (n) +TROXCCdn) -CowC)) 

相关 惩 阵 及 的 逆 假 设 为 止 定 的 ， 是 事先 计算 好 的 。 

3.9 在 此 题 中 我 们 重新 访问 在 2.11 节 中 讨论 的 相关 和 矩阵 记忆 。 这 个 记忆 的 一 个 缺点 是 
当 为 它 提供 一 个 关键 模式 5 时 ， 记 忆 体 产生 的 实际 响应 y 不 能 足够 (在 欧 几 里 德 的 意义 下 ) 
靠近 期 望 响 应 (记忆 檬 式 )8 以 便 记 亿 可 以 很 好 联想 。 这 个 缺点 是 因为 Hebb 学 习 固有 的 ， 它 
没有 利用 从 输出 到 输入 的 反 馆 。 为 了 补救 这 个 缺点 ， 我 们 可 以 在 记忆 设计 中 耦合 一 个 误差 修 
正 机 制 ， 迫 使 它 恰当 联想 (Anderson ,1983 ) 、 

设 ML( 站) 为 误差 修正 学 习 过 程 第 mn 次 选 代 学 习 的 记忆 和 抢 阵 。 记 忆 短 阵 疯 (n) 学 习 由 联想 
表示 的 信息 如 下 : 























和 下 =,2， 8 
(采用 [MS 算法 解决 这 个 问题 ， 证 明 记忆 怎 阵 的 更 新 值 定 义 为 
Mn +1 = 商 (n + Wiye -Cn)x] 

这 里 了 是 学 习 率 参数 。 

(b) 对 自 联想 ，ys = xi。 对 这 个 特例 ， 证 明 当 选 代 次 数 = 赵 于 无 穷 时 ， 记 忆 自 联想 得 很 
好 ， 即 证 明 

Max = xr， 下 = 12 ,9 

(ec) 在 (b) 中 的 结果 可 以 被 看 作 一 个 特征 值 问题 。 在 这 个 关系 下 ，xs 表示 MK om ) 的 一 个 
特征 向 量 。 求 M( o ) 的 特征 值 。 

3.10 ”此 题 中 我 们 研究 伪 置 对 一 个 相关 怎 阵 条 件数 的 影响 以 及 LMS 算法 的 性 能 。 

考虑 一 个 随机 向 重 刁 ， 它 的 协 方差 矩阵 为 











均值 为 目 = 网 
《a) 计 算 协 方差 矩阵 C 的 条 件数 。 
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(hb) 计 算 相关 和 盾 阵 R 的 条 件数 。 

评价 偏 置 几 对 LTMS 算法 性 能 的 影响 。 
Rosenblat 的 感知 器 

3.11 此 题 中 ， 我 们 考虑 另 一 种 导出 Rosenblatt 感知 需 更 新 公式 的 方法 。 定 义 感知 器 淮 
则 函数 (Duda and Hart,1973) 

册 (w) = 区 - wx) 

这 里 %(w) 去 示 根 据 权 值 向 景 w 的 选择 错误 分 类 的 样本 集 。 注 意 ， 如 果 没 有 错误 分 类 样本 ， 
玫 (w) 定 义 为 零 ， 且 假如 mwT x<0 输 出 是 错误 分 类 的 . 

(a) 用 何 上 证 骨 闷 (w) 是 与 错误 分 类 样本 到 次 策 边 界 的 欧 岂 里 德 上 距 离 的 和 成 比例 的 。 

(b) 求 元 Cw) 对 权 值 向 量 w 的 梯 虚 。 

《c) 利 用 (b) 中 得 到 的 结 采 ， 证 明 感 知 器 的 权 值 更 新 是 

WCGR+1) = CR)+ 开 ) 2 

这 里 %(w(=)) 表 示 用 权 值 向 量 w(= ) 错 误 分 类 的 样本 集 ， 且 尿 =) 是 学 习 奉 参数 。 证 明 此 结果 
对 单 样本 修正 的 情形 与 式 (3.54) 和 (3.55) 描 述 的 情形 是 基 本 一 致 的 。 

3.12 证 明 总 结 感知 器 收敛 算法 的 式 (3.68) 至 (3.71) 是 与 式 (3.54) 和 (3.5S) 一 致 的 。 

3.13 考虑 两 个 -- 维 Canss 分 布 类 %, 和 %. ， 它 们 的 方差 均 为 ft。 它们 的 均值 为 

=- 10 
和 记 =+10 

这 两 个 类 本 质 上 是 线性 可 分 的 。 设 计 一 个 分 类 器 来 分 离 这 两 个 类 。 

3.14 假设 图 3-6 中 的 信号 流 图 的 便 限 幅 器 被 如 下 sigmnoid 非 线 性 替代 ; 
el) = tanb( 号 ) 
这 里 "是 诱导 月 部 域 。 感 知 器 的 分 类 决策 定义 如 下 站 24 

如 果 输 出 y> 8 观察 向 量 x 属于 类 %, ， 这 里 6 是 半 值 ， 反 之 ，x 属于 6。。 

3.15 (〈 直 感知 器 可 以 用 来 执行 很 多 届 辑 函数 。 证 明 它 对 二 进 制 罗 辑 两 数 与 (AND)、 或 
(OR) 和 非 CCOMPLEMENT) 的 实现 。 

(b) 感 知 器 的 一 个 基本 局 限 是 不 能 执行 异 或 (XOR) 冰 数 。 解 释 造 成 这 个 局 限 的 原因 。 

3.16 式 (3.86) 和 (3.87) 定 义 Bayes 分 类 在 Causs 环境 下 的 权 值 向 量 和 含 置 。 当 上 方 差 矩 


阵 吕 由 
CC = TI [55j 
定义 时 ， 求 此 分 类 器 的 构成 ， 这 里 是 常数 、 








第 4 章 多 层 感知 器 


4.1 简介 


在 这 一 章 我 们 学 习 多 层 前 饶 网 络 ， 它 为 神经 网 络 的 重要 一 类 。 这 种 网 络 典型 地 由 三 部 分 
组 成 : 一 组 感知 单元 ( 源 节点 ) 组 成 栓 入 层 ， 一 层 或 多 层 计算 节点 的 隐藏 层 ， 还 有 一 层 计算 节 
点 的 输出 层 。 输 入 信号 在 层 层 递 进 基础 上 前 向 传播 通过 网 络 。 这 些 神经 网 络 通常 被 称 为 多 层 
感知 器 (multilayer pereeptrons,MLPs)， 它 代表 第 3 章 考 虑 的 单 层 感知 器 的 推广 。 

在 监督 学 习 的 方式 下 使 用 通称 为 误差 反 向 传播 算法 这 种 非常 普 记 的 算法 训练 多 层 感知 
器 ， 它 们 已 经 成 功 应 用 于 不 同 的 复杂 而 困难 的 问题 。 误 差 反 向 传播 算法 是 基于 误差 修正 学 习 
规则 的 。 因 此 , 它 可 以 被 看 成 是 同样 普遍 使 用 的 自 适 应 滤波 算法 的 推广 : 在 第 3 章 描述 的 
于 单个 神经 元 情 并 常用 的 最 小 均值 平方 (LMS) 算 法 。 

基本 上 ， 误 差 反 向 传播 学 习 由 两 次 经 过 网 络 不 同 层 的 通过 组 成 : 一 次 前 向 通过 和 一 次 反 
向 通过 。 在 前 向 通过 中 ， 一 个 活动 模式 (输入 向 量 ) 作 用 于 网 络 感知 节点 ， 它 的 影响 经 过 网 络 
一 层 接 一 层 地 传播 。 最 后 ， 产 生 一 个 输出 作为 网 络 的 实际 响应 。 在 前 向 通过 中 ， 网 络 的 突 触 
权 值 全 为 固定 的 。 另 一 方 而 ， 在 反 向 通过 中 ， 突 触 权 值 全 部 根据 误差 修正 规则 来 调整 。 特 别 
是 从 目标 响应 减 去 网 络 的 实际 响应 而 产生 误差 信号 。 这 个 误差 信号 反 向 传播 经 过 网 络 ， 与 突 
和 触 连接 方向 相反 一 一 因此 叫 “ 误 差 反 向 传播 "。 突 般 权 值 被 调整 使 得 网 络 的 实际 响应 从 统计 意 
义 上 接近 目标 响应 。 误 差 反 向 传播 算法 在 文献 中 称 为 反 向 传播 算法 (back-propagation 
algorithm) ， 或 是 简单 称 为 反 向 传播 ( back-prop)。 今后 我 们 把 它 称 为 反 催 传播 莉 法 。 由 算法 执 
行 的 学 习 过 程 被 称 之 为 反 向 传播 学 习 。 

多 层 感 知 器 有 三 个 突出 的 特点 : 

1 网络 中 的 每 个 神经 元 模型 包括 一 个 非 线性 激活 函数 。 在 这 里 要 强调 的 非常 重要 一 点 
是 ， 与 Rosenblatt 感知 器 使 用 的 硬 限 幅 函 数 相反 ， 非 线性 是 光滑 的 ( 即 处 处 可 微 )。 满 足 非 线 
性 要 求 的 一 个 普遍 应 用 形式 是 由 logistic 函数 
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定义 的 sigmoid 非 线 任 上 ， 其 中 w 是 神经 元 的 诱导 局 部 域 ( 即 所 有 突 触 输 入 的 加 权 和 减 去 偏 
置 )，7 是 神经 元 的 输出 。 非 线性 的 出 现 是 很 重要 的 ， 和 否则 网 络 的 输 人 输出 关系 会 被 归结 
为 单 层 感知 器 所 具有 。 而 且 ，logistie 函数 的 使 用 是 基于 生物 学 上 考虑 ， 因 为 它 想 说 明 真 正 神 
经 元 的 反 擂 期 (refra ctory) 阶段 。 

2, 网 络 包 括 一 层 或 多 层 隐藏 神经 元 ， 它 们 不 是 网 络 输入 输出 的 部 分 。 这 些 隐藏 层 神经 
元 逐步 从 输入 模式 (向 量 ) 中 提取 更 多 的 有 用 特征 ， 可 以 使 网 络 学 习 复杂 的 任务 。 

3, 网 络 展示 出 高 度 的 连接 性 ， 它 出 网 络 突 触 决定 。 网 络 连 接 的 改变 需要 突 触 连接 数量 
或 其 权 值 的 改变 。 
正 是 由 上 述 特性 以 及 通过 训练 从 经 验 中 学 习 的 能 力 相 结合 使 得 多 层 感知 器 具有 它 的 计算 
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能 力 。 然 而 ， 同 样 这 些 特性 导致 现 阶段 关于 网 络 行为 的 知识 的 缺乏 。 首 先 ， 由 守 非 线性 分 布 
式 的 存在 和 网 络 的 高 度 连接 性 使 得 多 层 感知 间 的 理论 分 析 难于 进行 。 第 二 ， 隐 藏 层 的 使 用 使 
得 学 习 过 程 变 得 更 不 可 想像 。 就 问 接 的 意义 而 言 ， 学 习 过 程 必须 决定 输入 模式 的 哪些 特征 应 
该 由 隐藏 居 神 经 元 表 不 出 来 。 学 习 过 程 因此 变 得 更 困难 了 ， 因 为 不 得 不 在 大 得 多 的 可 能 函数 
空间 中 搜索 ， 同 时 不 得 不 在 输 人 模式 的 不 同 表示 中 进行 选择 (Hinton,1989) 。 

“ 反 向 传播 "这 个 词 的 使 用 出 现在 1985 年 后 ， 而 它 的 广泛 使 用 必 在 (Porzjlel Disriiuied Piocessing》 
(Rumelhan and MeClelland,1986) 这 本 书 出 版 以 后 。 关 于 反 向 传播 算法 的 历史 注释 ， 请 看 1.9 节 。 

反 向 传播 算法 的 发 展 是 神经 网 络 发 展 史 上 的 一 个 里 程 碑 ， 因 为 它 为 训练 多 层 十 知 器 提供 
了 一 个 有 效 的 计算 方法 。 虽 然 我 们 不 能 说 反 向 传播 算法 为 所 有 待 解决 的 问题 都 提供 了 最 优 
解 ， 但 是 它 使 多 层 机 器 的 学 习 前 景 不 再 和 Minsky 和 Paper 在 其 1969 年 所 着 的 书 中 所 暗示 的 
那样 翡 观 。 


本 章 的 组 织 


在 本 章 中 ， 我 们 学 习 多 层 感知 器 的 基本 知识 以 及 反 向 传播 学 习 。 本 章 有 七 个 部 分 。 第 一 
部 分 从 4.2 节 到 4.6 节 ， 讨 论 与 反 向 传播 学 习 有 关 的 问题 。 在 4.2 节 为 引出 反 向 传播 算法 作 
一 些 初步 的 铺 热 。 在 4.3 节 用 微分 的 链 式 规则 详细 导出 该 算法 ; 在 给 出 的 推导 中 采用 传统 的 
方法 。 在 4.4 节 对 算法 提出 一 个 概述 。 在 4.5 节 通过 解决 XOR 问题 这 个 例子 说 明 如 何 使 用 反 
向 传播 算法 ，XOR 问题 是 一 个 有 趣 的 问题 、 但 用 单 层 感知 器 是 无 法 解决 的 。 在 4.6 节 , 为 了 
反 向 传播 算法 实现 得 更 好 我 们 给 出 一 些 启发 式 方法 或 实际 的 指导 方针 。 

第 二 部 分 从 4.7 节 到 4.9 节 ， 讨 论 多 层 感知 器 在 模式 识别 中 的 用 途 。 在 4.7 节 介 绍 使 用 
多 层 感 知 器 解决 统计 模式 识别 问题 的 规则 。 在 4.8 节 用 一 个 计算 机 实验 作为 实例 阐述 反 向 传 
播 学 习 应 用 于 区 分 具有 二 维 重 倒 Causs 分 布 的 两 类 情况 。 在 4.9 节 讨 论 降 疙 层 神经 元 作为 特 
征 检测 器 的 重要 作用 。 

本 章 的 第 二 部 分 ， 包 括 从 4.10 节 到 4.11 节 ， 处 理 误差 曲面 的 问题 。 在 4.10 节 讨论 反 向 
传播 学 习 在 计算 通 近 函数 偏 导数 中 的 重要 作用 。 然 后 在 4.11 节 讨 论 与 误差 曲 画 的 Heasian 矩 
阵 相 联系 的 计算 问题 。 

第 四 部 分 .我 们 处 理 与 用 反 向 传播 算法 训练 过 的 多 层 感知 器 性 能 有 关 的 各 种 问题 。 在 
4.12 节 讨论 泛 化 问题 ， 它 是 关于 学 习 的 一 个 非常 本 质 的 问题 。 在 4.13 节 讨 论 通过 多 层 感知 
器 得 到 的 连续 函数 的 台 近 。 在 4. 14 节 讨论 把 交叉 确认 作为 统计 设计 的 工具 。 在 4.15 节 民 述 
一 个 程序 有 序 地 修剪 一 个 多 层 感 知 器 而 同时 使 其 整体 性 能 至 少 保持 不 变 ( 和 不 断 提 高 )。 兴 
计算 复杂 性 是 首要 关心 的 问题 时 ， 网 络 修剪 就 成 为 必要 的 。 

第 五 部 分 完成 反 向 传播 学 习 的 癸 究 。4.16 节 总 结 反 向 传播 学 习 的 重要 优点 和 局 限 。4.17 
节 研 究 启发 式 方法 ， 它 为 如 何 加 速 反 向 传播 学 习 的 收敛 速率 提供 一 个 指导 方针 。 

第 六 部 分 我 们 用 一 种 不 同 的 观点 来 看 待 学 习 。 以 提高 学 习 为 目的 ， 在 4.18 节 讨论 监督 
学 习作 为 一 个 数值 优化 问题 的 话题 。 特 别 地 ， 我 们 描述 用 于 监督 学 习 的 共 扼 梯度 方法 和 拟 
Newton 方法 。 

这 一 章 最 后 一 部 分 4.19 节 讨 论 多 层 感知 器 本 身 。 在 那里 我 们 讨论 一 种 有 趣 的 神经 网 络 
结构 一 一 卷 积 多 层 感 知 器 。 这 种 网 络 已 经 成 功用 于 解决 困难 的 模式 识别 问题 。 

在 4.20 节 以 一 些 一 般 性 讨论 作为 本 章 结束 。 
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4.2 预备 知识 


图 4 1 表 示 一 个 有 具有 两 全 隐藏 层 和 一 个 输出 野 的 多 层 感知 器 的 结构 余 。 为 了 构筑 多 层 感 
知 器 一 般 形式 的 描述 平台 ， 这 里 说 的 网 络 是 全 连接 的 。 这 就 是 说 在 任意 层 上 的 一 个 神经 元 与 
它 之 前 的 层 上 的 所 有 节点 /神经 元 都 连接 起 来 .信和 号 在 一 层 接 一 层 的 基础 上 逐步 流 过 ， 方 向 
是 向 前 的 ， 从 堪 到 右 ,， 























输入 层 第 一 陈 臣 民 第 二 耻 天 导 输 晶 导 
图 4.1 具有 两 个 隐藏 层 的 多 层 感知 器 结构 图 


图 4.2 描绘 多 层 感 知 器 的 一 部 分 。 两 种 信号 都 
在 这 个 网 络 中 得 到 状 认 (Parker,1987): 

1. 函数 信号 。 一 个 函数 信号 是 从 网 络 输 入 层 的 
未 端 而 来 的 一 个 输入 信号 (刺激 )， 通 过 网 络 ( 一 个 
神经 元 接 一 个 神经 元 ) 传 播 ， 到 达 网 络 输 出 层 的 末 
端 即 成 为 一 个 输出 信号 。 我 们 把 这 样 一 个 信号 称 之 
为 "函数 信号 "有 两 个 原因 。 首 先 ， 在 网 络 输出 端 时 。 - 、 函 禾 信 号 本 
熏 设 它 表 现 为 有 用 的 函数 。 第 二 ， 在 丽 数 信号 通过 。 - 误 半 全 号 
网 络 上 每 一 个 神经 元 处 ， 该 处 信号 都 被 当成 输入 了 下 图 42 多 层 感知 器 中 两 个 基本 信号 流 
及 与 该 神经 元 有 关 的 权 信 的 一 个 函数 来 计算 的 。 函 的 方向 图 示 : 函数 信号 的 前 向 传 摄 和 让 
数 信和 号 也 被 认为 是 输入 信 号 。 差 入 叶 的 反 疝 传播 

2. 误差 信号 。 一 个 误差 信 导 产生 于 网 络 的 一 个 输出 神经 元 ， 并 通过 网 络 (~- 层 接 一 是 》 
反讽 传播 。 我 们 称 之 为 “误差 信号 "是 因为 网 络 的 每 一 个 神经 元 对 它 的 计算 都 以 这 种 或 那 种 形 
式 涉及 误 关 依赖 浮 数 。 

输出 神经 元 (计算 节点 ) 构 成 网 络 的 输出 层 ， 余 下 的 神经 元 (计算 节点 ) 移 成 网 络 的 耻 藏 
尾 。 内 此 耻 藏 层 单元 并 不 是 网 络 输出 或 输入 蝴 的 - -部 分 一 一 困 此 它们 被 称 为 “隐藏 "。 第 一 隐 
藏 层 的 信号 是 从 由 感知 单元 ( 源 节 点 ) 组 成 痊 入 屋 俩 给 的 ; 而 它 的 结果 信和 叶 又 应 用 于 下 一 个 路 
藏 居 ; 网 络 的 其 余部 分 依 此 类 推 。 

多 讨 感 知 器 每 一 个 隐藏 层 或 输出 层 的 神经 元 被 设计 用 来 进行 两 种 计算 ; 

1. 计算 一 个 神经 元 的 输出 处 出 现 的 函数 信号 ， 它 表 闹 为 关于 输入 信号 以 及 与 该 神经 光 
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有 关 的 突 触 权 值 的 -- 个 连续 非 线性 抽 数 。 
2. 梯 疼 向 量 ( 即 误差 曲面 对 与 一 个 神经 元 输 人 相连 接 的 权 值 的 梯度 ) 的 估计 计算 ， 它 需 
要 反 向 通过 网 络 。 
反问 传播 算法 的 导出 是 相当 地 复杂 ， 要 减轻 这 个 导出 所 涉及 的 数学 负担 ， 我 们 首先 给 出 
在 推导 中 使 用 的 符号 的 一 个 小 结 。 


符号 





符号 记 了 和 天 尾 指 网 络 中 不 同 的 神经 元 ; 由 于 信号 在 网 络 中 从 左 向 右 传播 ， 神 经 元 

所 在 层 在 神经 元 ;所 在 层 的 右边 ， 而 当 神 经 元 ) 是 隐藏 层 单元 时 神经 元 大 所 在 层 在 

神经 元 ) 所 在 度 的 左边 。 

在 迁 代 (时 间 步 )n， 网 络 的 第 * 个 训练 模式 (例子 ) 呈 现 给 网 络 。 

符号 儿 (n) 指 闪 代 = 时 的 腾 间 误差 平方 和 或 盟 间 误差 能 量 和 。 关 于 所 有 n( 即 整个 训 

练 集 ) 的 g(n) 的 平均 值 即 为 平均 误差 能 量 包 。。 

符号 e(m) 指 的 必 迭 代 = 时 神经 元 ) 的 输出 误差 信和 导 。 

符号 二 (nm) 指 的 是 关于 神经 元 7 的 期 望 响 充 并 用 于 计算 e(z)。 

符号 六 (z) 指 的 是 选 代 = 时 出 现在 神经 元 / 的 输出 处 的 函数 信号 . 

符号 由 (nm) 表 示 突 触 权 值 ， 该 权 值 是 选 代 = 时 从 褐 经 元 ; 的 输出 连接 到 神经 元 的 输 

入 。 这 个 权 值 在 选 代 ”时 的 修正 量 为 Axw(n)。 

和 迭代 ”时 神经 元 /的 诱导 局 部 域 ( 即 所 有 突 触 输入 的 加 权 和 加 上 篇 去 ) 记 为 Ca); 它 

构成 作用 于 神经 元 7 激活 函数 的 信和 号。 

用 来 描述 神经 元 / 的 非 线性 输入 -输出 函数 关系 的 激活 函数 表示 为 %(,)。 

。 用 于 神经 元 7 的 俯 置 用 咏 表示 ; 它 的 作用 可 由 一 个 与 等 于 + 1 的 固定 输入 相连 的 权 
值 为 wn = 避 突 触 表示 。 

。 输入 向 量 (模式 ) 的 第 ;个 元 素 用 x (mn) 表 示 。 

。 输出 向 量 (模式 ) 的 第 上 个 元 素 用 om) 表示 。 

学 习 率 参数 记 为 

符号 mi 表示 多 层 感 知 器 的 第 ! 层 的 大 小 ( 即 节点 的 数目 ); =0，1，…，Z， 而 工 就 

是 网 络 的 "深度 "。 因 此 mo 是 输入 层 的 大 小 ，mi 是 第 一 个 隐藏 层 的 大 小 ，mm 是 输 

出 层 的 大 小 。 也 使 用 记号 ms = M。 









































4.3 反 向 传播 算法 
神经 元 7 在 选 代 严 时 ( 即 呈 现 第 ” 个 训练 例子 ) 输出 误差 信 呈 定义 如 下 ; 
efn) = 芭 (n) 一 入 (mn) 神经 元 了 是 输出 节点 《4.1) 


我 们 将 神经 元 的 误差 能 量 胃 间 值 定义 为 (112) e?(n)。 相 应 的 ， 整 个 误差 能 量 的 曼 问 值 g(m) 
即 为 输出 层 的 所 有 神经 元 的 误差 能 量 瞬 间 值 的 和 ; 这 些 只 是 那些 误差 信号 可 被 直接 计算 的 
“可 见 "神经 元 。 因 此 ，g(m) 的 计算 公式 是 
(na) = 地 补 o(m) (4.2) 
扒 避 
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集合 C 包 括 网 络 输出 层 的 所 有 神经 元 。 令 W 记 力 包含 在 训练 集中 模式 (例子 ) 的 总 数 。 对 所 
有 求 划 (的 和 然后 关于 集 的 大 小 规整 化 即 得 的 均 方 误差 能 量 ， 表 示 为 
= 下 忆 如 (4.3) 

误差 能 量 的 瞬间 值 8(n) 和 误差 能 量 的 平均 值 思 。 是 网 络 所 有 自由 参数 ( 即 突 触 权 值 和 偏 置 水 
平 ) 的 函数 。 对 下 一 个 给 定 的 训练 集 ， 有 8 表示 的 代价 函数 作为 学 习性 能 的 一 个 量度 。 学 习 过 
程 的 目的 是 调整 网 络 的 自由 参数 使 得 最 小 化 儿 .。 要 达到 这 种 最 小 化 ， 我 们 使 用 第 3 章 推 导 
LMS 算 法 所 用 原理 相似 的 一 个 通 近 。 特 别 地 ， 我 们 考虑 一 个 训练 的 简单 方法 ， 即 权 值 在 一 个 
模式 接 一 个 模式 的 基础 更 新 ， 直 到 一 个 回合 (epech) 结 束 ， 也 就 是 整个 训练 集 的 完全 表示 已 
被 网 络 处 理 。 权 值 的 调整 根据 每 个 呈现 给 网 络 的 模式 所 计算 的 各 自 的 误差 进行 。 因 此 ， 这 些 
单个 权 值 在 训练 集 上 的 改变 的 算术 平均 ， 是 基于 使 整个 训练 集 的 代价 画 数 色 .最 小 化 的 真实 
权 值 改变 的 一 种 估计 。 在 这 一 昔 的 后 面 ， 我 们 将 给 出 这 种 估计 的 性 质 。 

然后 考虑 图 4-3， 它 描绘 神经 元 / 被 它 左边 的 - - 层 神经 元 产生 的 一 组 函数 信和 号 所 锁 给 。 
因此 ， 在 神经 元 ; 的 激活 函数 输入 处 产生 的 诱导 局 部 域 w(n) 是 


5 =- 于 帮 (Dy(m) (4.4) 
神经 元 
































砚 = 4 


ap = 5 0 









本 ar am 90 J) 了 _、 oa 


图 4-3 显现 输出 神经 元 7 细节 的 信号 菠 图 


这 里 mm 是 作用 于 神经 元 / 的 所 有 输入 (不 包括 偏 置 ) 个 数 。 突 触 权 值 wm (相应 于 固定 输 人 
yo = + 1 等 于 神经 元 7 的 仿冒 方 。 所 以 迭代 ” 时 出 现在 神经 元 ) 输出 处 的 冰 数 信号 记 (n) 是 

入 (2) = 条 (本人 (4.5) 

反 向 传播 算法 以 与 LMS 算法 类 似 的 方式 对 突 触 权 值 wkCn) 应 用 一 个 修正 值 Ar(m)， 它 
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正比 于 于 (ma) 对 由 (m) 的 偏 导 数 28(n)/1ar(n)。 根 据 微 分 的 链 式 规 则 ， 可 以 将 这 个 樟 度 表示 
为 





D 辕 (m) 9 思 (m) ge(a) ay am) 

aas(n) -ae(n) ayi(na)y 5300(n) ao(n) 

偏 导数 58( mn)/a 内 (mn) 代 表 一 个 敏感 因子 ， 决 定 突 触 权 值 岂 (n) 在 权 值 空间 的 搜索 方向 。 
在 式 (4.2) 两 边 对 efn) 肥 微分 ， 我 们 得 到 


(4.6) 














| = e(n) (4.7) 
在 式 (4.1) 两 边 对 y%(m) 取 微分 ， 得 到 
于 过 -_1 (4.8 
接着 ， 在 式 (4-5) 两 边 对 w(m) 取 微分 ， 得 到 
区 过 = 多 (om) (4.9) 
最 后 ,在 式 (4.4) 两 边 对 u (z) 取 微分 ， 得 到 
学 全 = im (4.10) 
将 式 (4.7) 至 (4.10) 代 和 人 式 (4.6) 得 到 
罗 -9i(o(n)7t GD 
应 用 于 风 (mn) 的 修正 Axo(n) 由 dala 法 则 定义 为 
Ai(n) = 一 了 天 个 (4.12) 


其 中 站 是 反 向 传播 算法 的 学 习 率 参数 。 式 (4.12) 中 负 号 的 使 用 意味 着 在 权 空 间 中 梯度 下 降 
《 即 寻 找 一 个 使 得 (=) 值 下 降 的 权 值 改 变 的 方向 )。 于 是 将 (4.11) 代 入 (4.12) 中 得 到 

















Aa(n) = 说 (nr(n) (4.13》 
这 里 局 域 梯度 8(m) 定 义 为 
30 -oem em 


局 城 梯度 指明 突 触 权 值 所 需要 的 变化 。 根 据 (4.14)， 输 出 神经 元 / 的 局 域 梯度 8 (n) 等 于 该 
神经 元 相应 误差 信号 e(z) 和 相应 激活 明 数 的 导数 W (5 () ) 的 乘积 。 

从 式 (4.13) 和 (4.14) 我 们 注意 到 ， 权 值 调 整 Auw ( n) 计 算 所 涉及 的 一 个 关键 因子 是 神经 
元 7 输出 端的 误差 信号 e(n)。 在 这 种 情况 下 ， 我 们 要 根据 神经 元 的 不 同位 置 ， 区 别 两 种 不 
同 的 情况 。 第 一 种 情况， 神经 元 是 输出 节点 。 这 种 情况 的 处 理 很 简单 ， 因 为 网 络 的 每 一 个 
输出 节点 都 提供 自己 期 望 的 反应 信号 ， 使 得 计算 误差 信号 成 为 直截了当 的 事 。 在 第 二 种 情 
况 ， 神 经 元 / 是 隐藏 层 节点 。 虽 然 隐藏 层 神经 元 不 能 直 搂 访问 ， 但 是 它们 对 网 络 输出 的 误差 
共同 承担 责任 。 然 而 ， 问 题 是 要 知道 对 隐藏 层 坑 经 元 这 种 共 担 的 责任 如 何 进行 秆 罚 或 奖赏 。 
这 就 是 在 2.7 节 中 讨论 过 的 信任 冉 值 问题 。 这 已 被 经 过 网 络 反 向 传播 误差 信号 成 功 地 解决 
了 。 
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情况 1 ”神经 元 /是 输出 节点 

当 神 经 元 / 位 于 网 络 的 输出 层 时 ， 给 它 握 供 自己 的 -个 期 望 响应 。 我 们 可 以 用 式 (4.1) 
来 计算 这 个 神经 元 的 误差 信号 (nj); 参看 图 4-3。 当 6 (mn) 确 定 以 后 ， 用 式 (4.14) 来 计算 局 
域 梯度 5(m) 是 很 直接 的 。 


情况 2 ”神经 元 /是 隐藏 层 节点 


当 神 经 元 / 位 于 网 络 的 隐藏 层 时 ， 就 没有 对 该 输入 神经 元 的 指定 期 望 响 齐 。 因 此 ， 隐 
藏 层 的 误差 信号 要 根据 所 有 与 隐藏 层 神经 元 直接 相连 的 神经 元 的 误差 来 递归 决定 。 这 就 是 
为 什么 反 向 传播 算法 的 发 展 变 得 很 复杂 的 地 方 。 考 虑 在 图 4-4 中 所 描绘 的 情况 ， 它 描绘 的 
神经 元 / 就 是 一 个 网 络 隐藏 层 节 点 。 根 据 式 (4.14) 我 们 可 把 隐藏 层 神经 元 的 局 域 梯度 重新 
定义 为 



































a8&(n) 3y(a) 3 吧 (z) ， ， 
2 = 了 (3 = 一 汪 (时 和 (ae))， 神经 元 / 是 隐藏 的 (4.15) 


神经 元 和 神经 元 大 


mr n、 





二 





ai 四 一己 (下 
9 






ao 9 aa -1 





一 oa 


四 90) CD 如 
个 


图 4-4 显现 输出 神经 元 上 连接 到 隐藏 神经 元 7 的 信号 流 图 


在 公式 的 第 二 行 我 们 用 到 了 式 (4,9)。 要 计算 偏 导 a8(m)137iKna) 我 们 进行 如 下 处 理 。 从 图 4-4 
可 以 看 到 














8(n) = 盐 呈 人 i(o)，。 神经 元 大 是 输出 节点 (4.16) 


这 就 是 对 式 (4.2) 用 下 标 下 替代 下 标 疡 我 们 这 么 写 是 为 了 避免 与 在 情况 2 使 用 下 标 7 表示 
个 隐藏 神经 元 相 混 清 。 在 式 (4.16) 两 边 对 函数 信号 %(n) 求 偏 导 ， 得 到 




















0 时 





[加 





5 四 


716 有 4 黄 





了 色 (n) 口 ei{ 了 1) 
5 = 2 了 0 (4.17) 


接着 我 们 对 偏 导数 ae:(m)137 (站 ) 使 用 链 式 规则 ， 重 写 式 (4.17) 为 等 价 形式 
a8(m) ae(n) amu(m) 
了 = Ze(m) 到 到 《4.19) 
然而 ， 从 网 4-4 我 们 注意 到 
on) = 几 (n) -na) = @(n) -or(m(n))， 神经 元 天 为 输出 节点 (4.19) 

















曲 
因此 到 过 = 一 4( 人 (Cn)) (4.20) 
我 们 从 图 4-4 也 要 注意 到 对 神经 元 上 来 说 ， 诱 导 局 部 域 是 
an) = 六 (yn (4.20) 
4 





这 里 六 是 神经 元 上 所 有 输入 的 个 数 (不 包括 偏 填 )。 同样 在 这 里 突 触 权 值 wo(n) 等 于 应 用 于 
神经 元 大 的 偏 置 生 (n)， 相 应 的 输入 是 固定 在 值 + ! 处 的 。 求 (4.21) 对 六 Cn) 的 微分 得 到 














戈 人 - wa (4.22) 
用 式 (4.20) 和 (4.22) 代 入 (4.18) ， 我 们 得 到 期 望 的 偏 役 分 
末 鸭 =- 2e(DeitatD)mw(o <- 于 80mmtn (4.23) 








在 第 二 行 用 到 局 域 梯度 3,(m) 的 定义 ， 它 由 式 (4.14) 给 出 ， 其 中 用 下 标 夺 替代 六 
最 后 ， 用 式 (4.23) 代 入 (4.15)， 得 到 关于 局 域 梯度 8 (=) 的 反 向 传播 公式 

BC) = 多 (9 四 ) 于 ai(n)es(a)，。 神经 元 / 为 隐 世 单元 (4.24) 
图 4.5 代表 式 (4.24) 的 信号 流 图 ， 假 设 输出 层 有 m 0 ein) 
个 神经 元 。 
在 式 (4.24) 中 与 局 域 梯度 8 (n) 的 计算 有 关 的 
因子 we (n)) 仅 仅 依赖 于 隐藏 层 神 经 元 / 的 激活 
函数 。 这 个 计算 涉及 的 其 余 因 子 ， 也 就 是 所 有 神经 
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BCDAotm Sn FweoD) 








ea 四 























元 点 的 和 ， 羔 赖 于 两 组 项 。 第 一 组 项 3 (mn)， 对 于 旬 四 
紧 接 隐藏 层 神经 元 7 右 端的 层 中 直接 与 神经 元 广 相 有 
连 的 所 有 神经 元 ， 需 要 具有 误差 信号 es (n ) 的 知识 : 四 4 误 益 信 号 反 间 转手 人 了 
参看 图 4-4。 第 二 组 项 ww (mn) 是 由 所 有 这 些 连接 的 系统 的 部 分 信号 流 图 


突 触 权 值 组 成 的 。 
现在 ， 我 们 总 结 为 反 向 传播 算法 导出 的 关系 。 首 先 ， 由 神经 元 ;连接 到 神经 元 六 的 突 触 
权 值 的 校正 值 Aww(m) 由 delta 规则 定义 如 下 : 























权 值 学 习 率 1 『 局 部 ] 『 神经 元 7 
校正 |= | 参数 | .| 梯度 | | 输入 信号 (4.2S) 
Axim) 们 BCn) 和 (Cn) 





其 次 ， 局 域 梯度 8 (mn ) 取 决 于 神经 元 ) 是 一 个 输出 节点 还 是 一 个 隐藏 层 节点 : 
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1. 如 果 神 经 元 j 是 一 个 输出 节点 ，3(m) 等 于 导数 gj (on)) 和 误差 信号 e (2) 的 乘积 ， 
它们 都 和 神经 元 7 相关 联 ， 参看 式 (4.14)- 

2. 如 果 神 经 元 / 是 隐藏 层 节点 ， 沁 (2) 等 于 相应 导数 咏 (a(n)) 和 8 的 加 权 和 的 乘积 ， 这 
些 $ 是 对 与 神经 元 7 相连 的 下 一 个 隐藏 层 或 输出 屋 中 的 神经 元 计算 得 到 的 ; 参看 式 (4.24)。 





计算 的 两 次 通过 


在 反 向 传播 算法 的 应 用 中 ， 计 算 肯 两 种 截然 不 同 的 通过 。 第 一 个 通过 是 指 前 向 通过 ， 而 
第 二 个 是 指 反 向 通过 。 

在 前 向 通过 中 ， 经 过 网 络 时 突击 权 值 保 持 不 变 ， 而 网 络 的 函数 信号 在 一 个 神经 元 接 一 个 
神经 元 基础 上 计算 。 出 现在 神经 抑 输出 处 的 函数 信 叶 计算 为 
in = an)) 《4.26) 
其 中 w(n) 是 神经 元 7 的 诱导 局 部 域 ， 出 

女人 (nm)》 = 癌 几 (mn) (4.27) 

定义 ， 这 里 ， 六 是 神经 元 5 的 所 有 输入 的 数量 (不 包括 偏 置 )， 而 由 (n) 是 连接 神经 元 ; 和 神经 
元 7 的 突 触 权 值 ，y (n) 是 指 神经 元 7 的 输入 信号 或 是 出 现在 挤 经 元 ; 的 输出 端的 丽 数 依 导 。 如 
果 神 经 元 7 在 网 络 的 第 一 隐藏 层 ， 则 mm = mo 且 下 标 ; 是 指 网 络 的 第 个 输 和 端点， 我 们 写作 
ia) = im) 《4.28) 
这 里 =* (=) 是 指 输入 向 量 (模式 ) 的 第 ;个 元 素 。 在 另 一 方面 ， 如 果 神 经 元 7 在 网 络 的 输出 层 ， 
则 首 = me， 并 且 下 标 /7 是 指 网 络 的 第 7 个 输出 端点 ， 我 们 写作 
委 (m) = on) (4.29) 
这 里 w (=)》 是 指 输出 向 量 ( 模 式 ) 的 第 了 个 元 素 。 这 个 输出 和 期 望 响 应 必 (n) 相 比较 ， 得 到 第 了 
个 输出 神经 元 的 误差 信号 。 因 此 ， 计 算 的 前 向 阶段 由 输入 向 量 馈 给 的 第 一 个 隐藏 层 开始 ， 以 
输出 层 计 算 该 层 的 每 一 个 神经 元 的 误差 信号 而 结束 。 

在 另 一 方面 ， 反 向 通过 从 输出 层 开始 ， 误 差 信号 向 左 经 过 网 络 一 层 一 层 传播 ， 并 且 递 归 
计算 每 一 个 神经 元 的 8( 即 局 部 梯度 )。 该 递归 过 程 允许 突 触 权 值 根 据 式 (4.25) 的 delta 规则 变 
化 。 对 于 位 于 输出 层 的 神经 元 ，8 简单 地 等 于 这 个 神经 元 的 误差 信号 乘 以 它 的 非 线 性 一 次 导 
数 。 因 此 ， 我 们 使 用 式 (4.25) 来 计算 所 有 馈 人 输 册 层 的 连接 的 权 值 变化 。 给 出 输出 层 神 经 元 
的 $， 接 着 用 式 (4.24) 来 计算 倒数 第 二 层 的 所 有 神经 元 的 3 和 所 有 馈 人 该 层 的 连接 的 权 值 变 
化 。 通 过 传播 这 个 变化 给 网 络 的 所 有 突 触 权 值 ， 一 层 接 一 层 连 续 递 归 计 算 。 

注意 由 于 每 给 出 一 个 训练 例子 ， 其 输 和 人 模式 在 整个 往返 过 程 中 是 固定 的 (钳制 的 ) ， 这 个 
往返 过 程 包括 前 向 通过 和 随后 的 反 向 通过 。 
激活 函数 

计算 多 层 感知 器 每 一 个 神经 元 的 8? 需要 关于 神经 元 的 激活 函数 g(') 的 导数 知识 。 要 导 
数 在 在 ， 则 需要 函数 9(' ) 连 续 。 用 基本 术语 ， 激 活 函 数 必需 满足 的 要 求 是 可 微 性 。 通 常用 
于 多 层 感知 器 的 连续 可 微 非 线性 激活 函数 的 一 个 例子 是 sigmoid 非 线 性 人 性; 这 里 有 两 种 形式 
要 说 一 下 : 
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1.logistic 函 孝 。 这 种 sigmoid 非 线 性 性 的 一 般 形 式 由 


(an = 1 4 >0,-mx<u(n) < (4.30) 


定义 ， 这 里 w(m) 是 神经 元 /7 的 诱导 局 部 域 。 根 据 这 种 非 线性 性 ， 和 输出 的 范围 位 于 0 邦和 1 
之 内 。 对 式 (4.30) 取 wa) 的 微分 ， 我 们 得 到 


aexp(- (nm)) 
+ exP( 一 epi(z)】 


由 于 鸭 (= 外 ia))， 我们 可 以 从 式 (4.31) 中 消去 指数 项 egp( - ofa))， 所 以 导数 gfi( 坟 
《a)) 可 以 表示 为 





9i(u(m) = 下 (4.31) 


gu(Cn)) = ap(na)[l- 区 Cn)] (4.32) 
因为 神 纾 元 7 位 于 和 输出 层 ， 所 以 fn) = ww(a)。 因 此 可 以 将 神经 元 /的 局 域 梯度 表示 为 
Sa) = 6(n)gi0b(a)) = ea[dtn) -ofa)]ognil-o(n)] (4.33) 
这 里 的 w(n) 是 神经 元 7 输出 端的 函数 信号， 而 直 (=) 是 它 的 期 望 响 应 。 另 一 方 而 ， 对 任意 
的 一 个 隐藏 层 神经 元 /， 我 们 可 以 将 局 域 梯度 表示 为 
Bi)= gun)) 玖 (9) 


= oj(n)[1 -六 (2)] 23(n)a(n)， 了 为 隐藏 神经 元 


从 式 (4.32) 可 以 看 出 ， 导 数 qi(z(m)) 当 六 Cn) = 0.5 时 取 最 大 值 ， 当 ”(na) =0 或 六 (站 =1 
时 取 它 的 最 小 值 (0)。 既 然 网 络 的 一 个 罕 触 权 什 的 变化 总 量 与 导数 pi(wfn)) 成 比例 ， 因 此 对 
于 一 个 sigmoid 激活 函数 来 说 ， 突 触 权 值 改变 最 多 的 神经 元 是 那些 函数 信号 在 它们 的 中 间 范 
国之 内 的 网 络 的 神经 无。 根据 Rumelhart et g.(1986a) ， 正 是 反 向 传播 学 习 这 个 特点 导致 它 作 
为 学 习 算法 的 稳定 性 。 

2. 双 曲 正切 另 数 。 另 外 一 个 经 常 使 用 的 sigmoid 非 线性 形式 是 双 曲 正切 函数 ， 它 的 最 通 
几 的 形式 由 


《4.34) 


(on)) = atanh(bo(a))， (ab > 0 (4.35) 
定义 ， 这 里 。 种 是 常数 。 事 实 上 ， 双 曲 正切 本 数 只 是 伟 绾 和 平移 的 logistic 函数 。 它 对 
2(z) 的 导数 如 下 ， 
久 (a(a)》= absecM(bor(p)) = abg(1 -tanie(bo(n))) 
= 二 [eolIeyo(o] 
如 果 神 经 元 ) 位 于 输出 层 ， 它 的 局 域 梯度 是 
8 = (站 狼人 w() = 去 [dg( 四 -olfae-o(n]re+ro(m] (4.37) 
如 果 神 经 元 ) 位 于 隐藏 层 ， 我 们 有 
So)= 外 (Com)) 歹 2 站 ( 人) 

















《4.36) 


4 (4.38) 
= 一 [aa-Dn)]iae+y(n)] 之 sn )asta)， 了 为 隐藏 神经 元 


对 logistie 本 数 使 (4 33) 和 (4. 34) 以 及 对 双 昌 正切 丽 数 使 用 起 (4.37) 和 (4.38)， 我 们 不 需 
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要 激活 函数 的 具体 信息 就 可 以 计算 局 域 梯度 8 。 
学 习 率 

反 向 传播 算法 提供 使 用 最 速 下 降 方法 在 权 空 间 计算 得 到 的 轨迹 的 一 种 近似 。 我 们 使 用 的 
学 习 率 参数 1 越 小 ， 从 一 次 迁 代 到 下 一 次 迁 代 的 网 络 突 触 权 值 的 变化 量 就 越 小 ， 轨 迹 在 权 值 
空间 就 越 光 滑 。 然 而 ， 这 种 改进 是 以 碱 慢 学 习 速 度 为 代价 的 。 另 一 方面 ， 如 果 我 们 让 了 3 的 值 
太 大 以 加 快 学 习 速 度 的 话 ， 结 果 就 有 可 能 使 网 络 的 突 触 权 值 的 变化 量 不 稳定 ( 即 振 萝 )。 一 个 
既 要 加 快 学 习 速度 又 要 保持 稳定 的 简单 方法 是 修改 式 (4.13) 的 delta 法 则 ， 使 它 包 括 动量 











项 2 ， 表 示 为 (Rumelhart et al. ,1986a) 



































Aitn) = ah 人 nn -了 + 他 (Cna)y(n) 《4.39) 
这 里 是 动量 常数 ， 通 常 是 正 数 。 它 控制 围绕 Auwi (n) 反 馈 环 DO 
路 ， 如 图 4-6 所 示 ， 其 中 :表示 单位 延迟 操作 符 。 式 (4.39) 被 
称 之 为 广义 dcla 规则 思 ， 它 包括 式 (4.13》 的 delta 规则 的 作为 特 加 四 


殊 情 况 ( 即 “= 0)。 

为 了 看 出 由 于 动量 函数 “在 一 系列 模式 皇 现 上 对 罕 触 权 值 
的 影响 ， 我 们 将 式 (4.39) 重 新 写 为 带 下 标 ;的 一 个 时 间 序列 。 索 ayw -9 人 
引 + 从 初 妈 时 刻 0 到 当前 时 刻 Rn。 式 (4.39) 可 被 视 为 权 值 修正 量 图 4.6 说 明 动 量 常数 < 











As (za) 的 一 阶 莹 分 方程 。 解 这 个 关于 Atz(n) 的 方程 得 到 作用 的 傅 号 流 图 
Ai (n) = 必 CD( (4.40) 


这 代表 一 个 长 度 为 上 +1 的 时 间 序 列 。 从 式 (4.11) 和 (4.14)， 我 们 可 知 8 (mn)7i(n) 等 于 -3 所 
《naw(n)。 因 此 我 们 将 方程 (4.40) 重 写 为 等 价 形式 

Ai (mn) = 六 关 沿 (4.41) 
在 这 个 关系 的 基础 上 ， 我 们 来 做 以 下 深 人 观察 (Watroua,1987;Jacobs ,1988) : 

1. 当前 修正 值 Am (mn) 代 表 指 数 加 权 的 时 间 序 列 的 和 。 和 欲 使 时 间 序 列 收敛 ， 动 量 常数 必 
须 限 制 在 0< | | < 1 范围 内 。 当 等 于 0 时 ， 反 向 传播 算法 运行 起 来 没有 动量 。 虽 然 在 实 
际 中 动量 常数 " 不 大 可 能 是 负 的 ， 但 它 还 是 可 正 可 负 。 

2. 当 偏 导 数 98(*)/a ws ( 在 连续 选 代 中 有 相同 的 代数 符号 ， 指 数 加 权 和 Axws (mn ) 在 数量 
增加 ， 所 以 ， 权 值 好 (=m) 被 大 幅度 调整 。 在 反 向 传播 算法 中 包含 动量 趋 于 在 稳定 的 下 降 方向 
上 加 速 下 降 。 

3, 当 偏 导数 38(t)/1a us 区 在 连续 选 代 中 有 相反 的 代数 符号 ， 指 数 如 权 和 Au{= ) 在 数量 


























上 减少 ， 所 以 ， 权 值 几 (m=) 调 整 不 大 。 在 反 向 传播 算法 中 包含 动量 具有 稳定 符号 正 负 摆动 方 “ 





向 的 效果 。 
在 反 向 传播 算法 中 ， 动 量 的 使 用 对 更 新 权 值 来 说 的 一 个 较 小 的 变化 ， 而 它 对 算法 的 学 习 
能 会 有 一 些 有 利 的 影响 。 动 量 项 对 于 使 学 习 过 程 不 停止 在 误 益 曲面 上 一 个 漫 层 的 局 部 最 小 
能 也 有 益处 。 
在 导出 反 向 传播 算法 时 假设 学 习 率 参数 ?是 一 个 常数 。 然 而 ， 事 实 上 它 应 该 被 定义 为 
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证; 也 就 是 说 ， 党 习 率 参数 应 该 是 依赖 连接 的 。 确 实 ， 在 网 络 的 不 同 地 方 而 使 用 不 间 的 学 习 
率 参数 会 发 生 很 多 有 趣 的 事情 。 关 于 这 一 点 在 下 一 节 我 们 会 给 出 详细 措 述 。 

同样 值得 注意 的 是 ， 我 们 在 反 向 传播 算法 的 应 用 中 可 以 选择 所 有 突 触 权 值 都 是 可 调整 
的 ， 或 者 在 自 适 应 过 程 中 可 能 限制 网 络 中 某 些 权 值 使 其 保持 固定 。 对 于 后 者 ， 误 差 信号 是 以 
通常 的 方式 通过 网 络 反 向 传播 的 ; 然而 ， 固 定 的 突 触 权 值 是 不 更 改 的 。 这 一 点 ， 可 以 简单 通 
过 使 突 触 权 值 的 学 习 率 参数 图 等 于 0 米 做 到 。 


训练 的 串 行 和 集中 方式 


在 反 向 传播 算法 的 实际 应 用 中 ， 学 习 结果 是 从 将 指定 的 训练 例子 多 次 呈现 给 多 层 感 知 器 而 
得 到 的 。 像 前 面 提 到 过 的 一 样 ， 在 一 个 学 习 过 程 中 整个 训练 集 的 完全 呈现 称 之 为 -个 回合 
(epech) 。 学 习 过 程 是 在 一 个 回合 接 一 个 回合 的 基础 上 进行 直到 网 络 的 突 船 权 值 和 误差 水 平稳 定 
下 来 ， 并 且 整 个 训练 集 上 的 均 方 误差 收敛 于 某 个 极 小 值 。 从 一 个 回合 到 下 一 个 回合 时 将 训练 样 
本 的 呈现 顺序 随机 化 是 一 个 很 好 的 实践 。 这 种 随机 化 易于 在 学 习 循环 中 使 得 权 空 间 搜 索 具 有 随 
机 性 ， 因 此 可 以 在 突 触 权 值 向 量 演化 中 避免 极 限 环 出 现 的 可 能 性 ;极限 环 在 第 14 章 讨论 。 

对 于 一 个 给 定 的 训练 集 ， 反 向 传播 学 习 可 能 会 以 下 面 两 种 基本 方式 中 的 一 种 进行 ; 

1. 串 行 方式 。 反 向 传播 学 习 的 串 行 方式 也 称 为 是 在 线 方 式 、 模 式 方式 或 随机 方式 。 在 
这 种 运行 方式 里 在 每 个 训练 样本 呈现 之 后 进行 权 人 更 新 ;这 正 是 导出 目前 反 向 传播 算法 公式 
所 引用 的 过 行 方式 具体 地 ， 考 虑 包含 W 个 训练 例子 (模式 ) 的 一 个 回合 ， 其 顺序 是 (x(1)， 
民 1))，…，(KCN)，,dCN))。 该 回合 的 第 一 个 例子 对 (x(1)， adD)) 旺 现 给 网 络 时 ， 完成 以 前 描述 
的 前 向 和 友 向 计算 项 导致 网 络 的 突 触 权 值 和 偏 置 水 平 的 一 定 调整 。 楼 着 ， 该 回合 的 第 二 个 
样本 对 (x(2)，d(2)) 呈 现时 ， 重 复 前 向 和 反 铅 的 计算 顺序 ， 导 致 网 络 的 突 触 权 值 和 偏 署 水 平 的 
进一步 调整 。 直 到 该 回合 的 最 后 一 个 例子 对 (x( W) ,d(W)) 考 虑 完 以 后 这 个 过 程 才 结束 。 

2. 集中 方式 。 在 反 向 传播 学 可 的 集中 方式 中 ， 权 值 更 新 要 在 组 成 一 个 回合 的 所 有 训练 
例子 呈现 后 才 进 行 。 对 于 特定 的 一 个 同 含 ， 我 们 将 代价 函数 定义 为 式 (4.2) 和 (4.3) 均 方 误 
差 ， 这 里 重新 写成 组 合 形式 

























































































名 = 志 疡 ) 《4.42) 
这 里 误差 信号 (nm)} 表 示 训 练 例 子 =” 由 式 (4. 切中 所 定义 的 输出 神经 元 ) 有 关 的 误差 。 误 善 
(za) 等 于 攻 (a) 和 Y(z) 的 差 ， 它 们 分 别 表示 期 望 响 应 向 基 d( =) 的 第 个 分 量 和 网 络 输出 
的 相应 值 。 在 式 (4.42) 中 关于 了 的 内 层 求 和 是 对 网 络 的 输出 层 的 所 有 神经 元 进行 的 ， 而 关于 
m 的 外 层 求 和 是 对 当前 回合 的 整个 训练 集 进行 的 。 对 于 学 习 率 参数 1， 应 用 于 从 ;连接 到 了 
的 几 的 修正 值 由 dala 规则 


Am -1 - -号 立 。 人 殉 多 04.4) 


定义 。 要 计算 偏 导数 ae(m)/azx ， 我 们 用 以 前 的 相同 方式 处 理 。 根据 式 (4.43))， 在 集中 方式 
中 ， 权 值 的 校正 值 A 凡 是 在 整个 训练 集 提 交 训 练 以 后 才 决 定 。 

从 在 线 运行 的 观点 来 看 ， 训 练 的 品行 方式 比 集 中 方式 要 好 ， 因 为 对 每 一 个 突 触 权 值 来 说 
需 有 更 少 的 局 部 存储 。 而 且 ， 既 然 以 随机 方式 给 定 网 络 的 训练 模式 ， 利 用 一 个 模式 接 一 个 模 
式 的 方法 更 新 权 值 使 得 在 权 值 空 间 的 搜索 自然 具有 随机 性 。 这 使 得 反 向 传播 算法 陷 人 局 部 最 
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小 的 可 能 性 降低 了 。 

同样 地 ， 串 行 方 式 的 随机 性 质 使 得 要 得 到 算法 收敛 的 理论 条 件 变 得 困难 了 。 上 比较 而 言 ， 
训练 集中 方式 的 使 用 为 梯度 向 量 提 供 了 一 个 精确 的 估计 ; 收 伍 到 局 部 最 小 只 要 简单 的 条 件 就 
可 以 保证 。 集 中 方式 的 成 分 比 串 行 方式 更 容易 并 行 化 。 

当 训练 数据 宛 余 时 ( 即 数 据 集合 包含 同一 模式 的 几 个 备份 )， 我 们 发 现 不 像 集 中 方式 那 
其 ， 因 为 在 一 次 只 呈现 一 个 例子 ， 从 而 串 行 方式 可 以 利用 这 种 元 余 。 当 数据 集 很 大 旦 高 度 元 
余 时 尤其 如 此 。 

总 地 来 说 ， 尽 管 反 和 癌 传播 学 习 的 串 行 方式 有 一 些 缺 点 ， 但 它 能 够 如 此 流行 (特别 对 顷 决 
模式 分 类 问题 ) 有 两 个 重要 的 原因 ; 

， 算法 的 实现 很 简单 。 

*， 它 为 大 型 问题 和 困难 的 问题 提供 有 效 的 解决 方法 。 


停止 准则 


通常 ， 不 能 证 明 反 向 传播 算法 收敛 ， 并且 没有 明确 定义 的 停止 它 运行 的 准则 。 相 反 ， 
有 一 些 会 理 的 准则 ， 它 们 每 个 都 有 自己 的 实际 用 处 ， 这 些 准 则 可 以 用 于 终止 权 值 的 调整 。 
提出 这 样 一 个 准则 ， 考 虑 关于 误差 曲 而 的 局 部 或 全 局 最 小 的 特殊 性 质 是 符合 逻辑 的 。 将 权 
向 量 w" 标记 为 局 部 或 全 局 最 小 点 。 要 使 w`* 成 为 最 小 点 的 一 个 必要 条 件 是 误差 曲面 对 权 
向 量 w 的 梯度 向 量 g( w)( 即 一 阶 偏 导数 ) 在 w= w-” 处 等 于 0。 因此、 我 们 可 以 提出 反 向 传 
学 习 的 一 个 合理 的 收敛 准则 (Kramer and Sangiovanni-Vincentelli ,1989) ， 

当 梯度 向 量 的 攀 几 里 德 范 数 达到 一 个 充分 小 的 梯度 阀 值 时 ， 认 为 反 向 传播 算法 已 经 收 化 

这 个 收敛 准则 的 缺点 是 ， 为 了 成 芒 试 验 ， 学 习 时 间 可 能 会 很 长 。 同 时 它 需 要 计算 梯度 向 
量 中 ww)。 

另 一 个 我 们 能 够 使 用 的 最 小 点 的 特殊 忻 质 是 代价 函数 或 误差 量度 .(W) 在 w= w'" 处 是 
稳 的 。 因 此 .我 们 可 以 建议 一 个 不 同 的 收敛 准则 ; 
当 楷 一 个 回合 的 均 方 误差 的 变化 的 绝对 违 率 足够 小 时 ， 认 为 反 向 传播 算法 已 经 收效 。 
均 方 误差 的 变化 的 绝对 速率 如 果 每 个 回合 是 在 百 分 之 0.1 到 工 之 问 ， 一 般 认 为 它 足够 
小 。 有 时 候 ， 每 一 个 回合 都 会 用 到 小 到 百 分 之 0.01 这 样 的 值 。 不 的 是 ， 这 个 准 财 可 能 会 
导致 学 习 过 程 的 过 早 终止 - 

有 另外 一 个 有 用 的 且 有 理论 支持 的 收 伍 准则。 在 每 一 个 学 习 和 迭代 之 后 ， 部 要 检查 网 络 的 
这 化 性 能 。 当 泛 化 性 能 是 适当 的 ， 或 活化 性 能 明显 达到 峰值 时 ， 学 习 过 程 被 终止 : 参看 
4.14 节 有 更 多 细节 。 


4.4 反 向 传播 算法 小 结 

图 4-1 给 出 一 个 多 层 感知 器 的 结构 布局 。 反 向 传播 学 习 的 相应 的 信和 号 流 匣 ， 包 括 学 习 过 
程 计 算 的 前 向 和 反 向 阶段 ， 居 = 和 mo = r| = ms =3 的 情况 在 图 4-7 中 表示 。 信 和 号 流 图 的 上 
面 一 部 分 是 说 明 前 向 通过 的 。 信 和 号 流 图 的 下 面 一 部 分 是 说 明 反 向 通过 的 ， 这 也 称 为 在 反 向 传 
播 算法 中 计算 局 域 梯度 的 灵敏 图 (sensitivity graph) (Narendra and Parthasarathy ,1990)。 
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图 4-7 反 向 传播 学 当 售 号 流 图 小 结 
图 顶部 : 前 向 通过 图 底部 : 反 向 通过 
前 面 我 们 提 到 权 值 的 串 行 更 新 是 反 向 传播 算法 的 在 线 实现 的 更 好 方法 。 对 这 种 方式 运 
行 ， 算 法 通过 训练 样本 |(x(z) ,dtz))1 ,进行 循环 如 下 : 
1. 初始 化 。 假 设 没有 先 验 知识 可 用 ， 我 们 以 一 个 随机 分 布 随机 地 挑选 突 触 权 值 和 冰 值 , 
这 个 分 布 选择 为 均值 等 于 0 的 均匀 分 布 ， 它 的 方差 的 选择 应 该 使 得 神经 元 的 雇 导 局 部 域 的 标 
准 偏差 位 于 sigmoid 激活 函数 的 线形 部 分 与 已 和 部 分 过 湾 处 。 
2. 训练 样本 的 呈现 。 呈 现 训 练 样 本 的 一 个 回合 给 网 络 。 对 训练 集中 以 某 种 形式 排序 的 
每 个 样本 ， 依 次 进行 在 下 面 的 第 3 点 和 第 4 点 中 所 描述 的 前 向 和 反 向 计算 。 
3. 前 向 计算 。 在 该 加 台中 设 一 个 训练 样本 是 (x(n),d(z))， 输 入 向 量 x(m) 指 向 感知 节 
点 的 输入 层 和 期 望 响应 向 量 da ) 指 向 计算 节点 的 输出 层 。 不 断 地 经 由 网 络 一 层 一 层 地 前 进 ， 
可 以 计算 网 络 的 诱导 局 部 域 和 函数 信和 号。 在 层 ! 的 神经 元 / 的 诱导 局 部 域 z(m) 为 




















Po 
(na = ui(n)yD(n) (4.44) 


这 里 740(n) 是 造 代 ”时 前 面 第 ! - 1 层 的 神经 元 ; 的 输出 ( 画 数 ) 信 号 ， 而 w 刀 (mn) 是 从 第 
zi- 1I 层 的 神经 元 守 指 向 第 ! 层 的 神经 元 / 的 权 值 。 对 = 0， 我 们 有 y% > (na) = +1， 并 且 
a 见 (z) = 8 (m) 是 第 了 层 的 神经 元 / 的 偏 置 。 假 设 使 用 一 个 sigmoid 函数 ， 巾 第 ! 层 的 神经 
元 7 的 输出 信号 是 

y = 多 (CD)) 
如 果 神 经 元 / 是 在 第 一 隆 藏 层 ( 印 1= 1)， 置 


yw(n) = 区 (m) 
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这 里 %(z) 是 输入 向 量 x 站) 的 第 了 个 元 素 、 如 果 神 经 元 7 在 输出 层 ( 即 1= 工 ， 这 里 的 工 称 为 
阅 络 的 深度 )， 令 ， 


yi = ofn) 


计算 误差 信号 
oa) = do -ao(m) (4.45) 
这 里 上 (ao) 是 期 望 响应 向 量 d(n ) 的 第 7 个 向 量 。 
4. 反 向 计算 。 计 算 网 络 的 8( 即 局 域 梯度 ), 定义 为 
on)gi(z(m) 对 答 出 层 研 的 神经 元 


人 (| 和 Go0D) 于 训 oago(a) 对 隐藏 层 7 的 神经 元 


这 里 4 (是 指 对 自 灾 量 的 微分 。 根 据 广 义 delta 规则 调节 网 络 第 ! 层 的 罕 触 权 值 : 
2 各 (n+ = ao 各 Ca) +o[La 名 (1 +(CeyrD(n) (4.47) 
这 里 ?为 学 习 率 参 数 ，v 为 动量 常数 。 
5$. 迁 代 。 通 过 呈现 新 的 一 回合 样本 给 网 络 根据 第 3 点 和 第 4 点 进行 前 向 和 反 向 迭代 计 
算 ， 直 到 满足 停止 准则 。 
注意 : 训练 样本 的 呈现 顺序 从 一 个 回合 到 另 一 个 回合 必须 是 随机 的 。 动 量 和 学 刁 率 参数 
随 着 训练 挝 代 次 数 的 增加 而 调整 (通常 是 减少 的 )}。 以 后 会 给 出 这 些 点 的 理由 。 


4.5 异 或 问题 


一 个 基本 的 ( 单 层 ) 感 知 器 没有 聊 功 神经 元 。 因 此 ， 它 不 能 对 非 线性 可 分 的 输入 模式 分 
类 。 然 而 ， 非 线性 让 分 模式 却 是 很 普遍 的 。 例 如 ， 对 蜡 或 (XOR) 问 题 就 遇 到 这 种 情形 、 它 可 
以 看 作 在 单位 超 立 方 体 中 更 一 般 的 点 分 类 问题 的 特例 。 在 超 立 方 体 中 的 每 个 点 不 是 属于 类 0 
就 是 属于 类 1。 但 是 对 异 或 问题 特殊 人 情形， 我 们 仅 考虑 单位 工 方形 的 四 个 角 ， 相 应 的 输入 模 
式 为 (0,0),(0.1),(1,0) 和 (1,1)。 第 一 个 和 第 三 个 输入 模式 属于 类 0， 即 

0 四 0=0 
和 1 四 1=0 

这 里 弗 指 的 是 异 或 布尔 尊 数 运算 符 。 输 入 模式 (0,0) 和 (1,1) 是 单位 正方 形 的 两 个 相对 的 
角 ， 但 它们 产生 相同 的 结果 是 0。 另 一 方面 ， 输 入 模式 (0,1) 和 (1,0) 是 单位 正方 形 的 另 一 对 
相对 的 角 ， 但 是 它们 属于 类 1， 即 


(4.46) 


















































0@@1 -1 

和 190=1 

首先 我 们 知道 有 两 个 输 人 的 单个 神经 元 的 使 用 得 到 的 决策 边界 是 输入 空间 的 “条 直线 。 
在 这 条 直线 的 一 边 的 所 有 的 点 ， 神 经 元 输出 1; 而 在 这 条 直线 的 另 一 边 的 点 ， 神 经 元 输出 0。 
在 输入 空间 中 这 条 直线 的 位 置 和 方向 由 与 两 个 输入 节点 相连 的 神经 元 的 突 触 权 值 和 它 的 偏 填 
决定 。 由 于 输入 模式 (0,0) 和 (1,1) 是 位 于 单位 正方 形 的 相对 的 两 个 角 ， 输 入 模式 (0,1) 和 
(19) 也 一 样 ， 很 清楚 我 们 作 不 旨 这 样 一 条 直线 作为 决策 边界 可 以 使 (0,0) 和 (1,1) 在 一 个 区 
域 ， 而 (1,0) 和 (0,1) 在 另 一 区 域 。 换 句 话说 ， 一 个 简单 感知 器 不 能 解决 XOR 问题 。 

如 图 4- 8a 中 所 示 ， 我 们 可 以 使 用 一 层 有 两 个 神经 元 的 隐藏 层 来 解决 异 或 问题 (Touretaky 
and Pomerleau,1989)。 网 络 的 信号 流 图 在 图 4-8 b 给 出 。 这 里 作 以 下 假设 ， 
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图 48 





a) 解 决 XOR 问题 的 网 络 结构 图 “) 网 络 信 号 流 图 


每 一 个 神经 疱 都 由 一 个 MeCulloch-Pitts 寞 型 表 
示 ， 使 用 阅 值 函数 作为 它 的 激活 函数 。 

。 比特 符 导 0 和 1 分别 由 水 平和 +1 表 下 。 
隐藏 层 中 顶部 神经 元 标记 为 1， 定 义 为 


an= ap =+1 








该 隐藏 神经 元 构造 的 次 策 边 界 的 斜率 等 于 - 1， 在 图 
4 -9a 给 出 其 位 置 。 在 隐藏 层 中 底部 神经 元 标记 为 2， 定 
多 为 


ao = 2 =+1 


第 二 隐藏 神经 元 构造 的 决策 边界 的 方向 和 位 置 由 图 4-9b 
给 出 。 
图 4-8a 的 标记 为 3 的 输出 神经 元 定义 为 
am = 一 2 


妈 风 二 十 | 


一 


输出 神经 元 的 功能 是 对 两 个 隐藏 神经 元 形成 的 决策 边 
界 构造 线 性 组 合 。 这 个 计算 结果 表示 在 图 4.9c 中 。 底 
部 隐藏 神经 元 由 一 个 兴奋 ( 正 ) 连 接 到 输出 神经 元 ， 而 
顶部 隐藏 神经 元 由 一 个 更 强 的 抑制 ( 负 ) 连 接 到 输出 神 
经 元 。 当 两 个 隐藏 神经 元 都 断 开 时 ， 这 种 情况 当 输 人 
信号 是 (0,0) 时 发 生 ， 输 出 神经 元 保持 断 开 。 当 两 个 隐 
藏 神 经 元 都 接 通 时 ， 这 种 情况 当 输 和 模式 是 (1,1) 时 发 
生 ， 输 出 神经 元 也 保持 断 开 ， 央 为 由 连 向 顶部 隆 藏 神 














图 49 
a) 在 图 4.8 中 的 网 络 隐藏 神经 元 ! 所 构 
造 的 决策 边界 “b) 网 络 隐藏 神经 元 2 所 
构造 的 决策 边界 “) 束 个 网 络 所 构造 的 
决策 边 舞 
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经 元 负 权 值 产生 的 抑制 效果 越过 由 连 向 底部 隐藏 神经 元 正 权 值 产生 的 兴奋 效果 。 当 项 部 隐藏 
神经 元 是 断 开 的 而 底部 隐藏 神经 元 是 接 道 的 ， 即 输入 模式 是 (0,1) 或 (1,0) 时 ， 输 出 神经 元 是 
接 通 的 ， 内 为 正 的 权 值 连 向 了 底部 隐藏 神经 元 。 因 此 图 4-8a 确实 解决 了 蜡 或 问题 。 


4.6 改善 反 向 传播 算法 性 能 的 试探 法 


信 们 常 说 ， 用 于 反 向 传播 算法 的 神经 网 络 的 设计 与 其 说 是 科学 ， 不 如 说 更 像 一 门 艺术 ， 
因为 这 个 设计 中 的 很 多 数值 因素 依赖 于 个 人 自己 的 经 验 。 从 某 种 意义 上 讲 这 个 论断 是 正确 
的 。 但 是 ， 也 有 些 方法 能 对 到 向 传播 算法 有 重大 提高 ， 了 可 撕 述 如 下 : 

1. 品行 更 新 而 不 是 集中 方式 更 新 。 如 前 而 已 经 提 到 过 的 ， 友 向 传播 学 习 的 中 行 方 式 ( 
及 一 个 异 式 接 一 个 模式 的 更 新 ) 车 比 和 集中 方式 的 计算 快 。 特 别 当 训练 数据 集 很 大 且 高 度 史 余 
时 ， 更 是 如 此 . 《高 度 元 余 的 数据 对 集中 方式 更 新 所 需要 的 Jacohi 矩阵 的 估计 提出 了 计算 上 
的 门 题 - ) 

2. 最 大 可 能 的 信息 内 容 。 作 为 -- 个 基本 的 规划 ， 对 呈现 给 反 向 传播 算法 的 每 一 个 训练 
样本 的 挑选 必须 建立 在 其 信息 内 容 对 解决 问题 有 最 大 可 能 的 基础 上 (LeCun,1993)。 达 到 这 个 
月 标的 随 种 方法 古 : 

， 使 用 训练 误 益 最 大 的 样本 。 

。 使 用 的 样本 要 与 以 前 使 用 的 有 根本 区 别 。 

这 两 个 试 控 方 法 起 内 于 对 权 空 间 进行 更 多 搜索 的 让 望 。 ， 

在 模式 分 类 的 任务 中 使 用 引 行 反 向 传播 学 习 ， 经 常 使 用 的 一 个 简单 技巧 是 将 样本 每 个 回 
合 呈 现 给 多 层 感知 器 的 顺序 随机 化 ( 即 弄 想 )。 理 想 情况 下 ， 随 机 化 可 以 确保 一 个 回合 中 的 相 
继 的 样本 很 少 属于 同 类 。 

对 于 一 个 更 加 改良 的 技巧 ， 我 们 使 用 强调 图 表 ， 这 涉及 呈现 给 网 络 更 加 困难 的 模式 而 不 
是 容易 的 模式 。 一 个 特定 的 模式 是 容易 还 是 困难 可 以 通过 检查 其 产生 的 误差 与 算法 以 前 迭代 
所 产 牛 的 误 老 进行 比较 来 确认 。 然 而 ， 在 使 用 强调 图 表 时 有 两 个 问题 需要 仔细 注意 ， 

， 一 个 回合 中 呈现 给 网 络 的 样本 分 布 是 变 堪 的 。 

， 例外 点 吉 是 错误 标记 的 样本 的 出 现 对 于 算法 的 性 能 会 有 一 个 灾难 性 的 后 果 ; 学 习 这 

翌 的 例外 点 对 网 络 在 输入 空间 中 更 大 可 能 区 域 的 泛 化 能 力 带 来 损害 。 

3. 激活 函数 。 一 般 来 说 ， 当 网 络 的 神经 元 模型 府 人 的 sigmoid 激活 函数 是 反对 称 而 不 是 
非 对 称 时 ， 一 个 用 反 向 传播 算法 训练 的 多 层 感 知 器 会 学 得 快 一 些 ; 详细 内 容 请 看 4.11 节 。 
当 一 个 激活 函数 gz) 满足 条 件 






























































































































































8) = -人 0) 
我 们 说 它 是 反对 称 的 ( 即 为 它 的 自 变量 的 奇 函 数 )， 见 图 410a。 在 图 4-.10b 的 标准 logistic 函 
数 不 满足 该 条 件 。 
关于 反对 称 函 数 的 一 个 非常 流行 的 例子 是 一 个 双 曲 正切 的 sigmoid 型 非 线性 性 ， 即 
(2) = atanh( 有 io) 
其 中 e，5 是 常数 。 合 适 的 e， 二 值 毗 (LeCun,1989.1993) 
a= 1.7159 
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这 样 定 义 的 双 曲 正切 函 歼 有 如 下 有 月 
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图 410 
了 反对 称 激活 函数 。b) 非 对 称 激活 丙 数 


肯 的 人 性质 ， 











"” 9)=1 和 HR-1D= -1 
。 在 原点 激活 函数 的 倾斜 度 ( 即 有 效 增益 ) 接 近 于 1， 如 下 所 示 ; 
9(0) = 上 = 1.7159 x 273 = 1.1424 
*， 9) 的 二 阶 导 数 在 * = ! 时 达到 最 大 。 
4. 目标 值 。 在 sigmoid 激活 函数 的 范围 内 选择 月 标 信 ( 期 望 响 应 ) 是 很 重要 的 。 符 别 地 ， 
多 层 感知 器 的 输出 层 的 神经 元 /的 期 望 响 应 本 必须 被 与 sigmoid 激活 函数 的 极限 值 偏离 某 个 
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值 。 和 否则 反 向 传播 算法 会 使 网 络 的 参数 趋向 于 无 穷 大 ， 驶 使 隐藏 神经 元 达到 饱和 从 而 减 慢 学 
习 过 程 。 其 体 地 ， 考 虑 图 4- t0a 所 示 的 反对 称 激 活 函数 、 对 于 极限 值 + e， 我 们 令 


省 =a-s 





对 于 有 限 值 - e， 我 们 令 
田 
这 里 = 是 一 个 合适 的 正常 数 。 对 前 面 选 择 的 e = 1.7159， 可 以 令 s=0,7159， 这 样 ， 日 标 值 可 
以 方便 地 选 为 1， 见 图 4- 10a。 
5. 输 人 规整 化 。 每 -个 不 同 的 输入 变量 都 需要 预 处 理 ， 使 得 它 关 于 整个 训练 集 求 平 均 
的 均 仁 接 近 0， 或 者 与 标准 偏差 相 比 是 比较 小 的 (LeCun,1993 )。 为 评价 这 个 规则 的 实际 意 
义 ， 我 们 考虑 当 输入 恒 正 时 的 极端 情况 。 在 这 种 情况 下 ， 第 一 和 隆 藏 层 的 一 个 神经 元 的 所 有 突 
掩 权 值 只 能 同时 增加 或 同时 减少 。 所 以 ， 如 果 这 个 神经 元 权 值 向 量 改变 方向 ， 则 它 的 误差 曲 
面 的 路 径 变 成 锯齿 形 的 ， 这 会 使 收敛 速率 变 慢 ， 因 此 应 该 避免 。 

要 加 速 反 向 传播 学 习 的 过 程 ， 输 入 变量 的 规整 化 必须 包括 下面 两 个 步 又 ; 

* 训练 集 包含 的 输入 变量 应 该 不 相关 的 ; 这 可 以 通过 第 8 章 提 到 的 主 分 量 分 析 法 来 做 

到 。 

” 去 相关 后 的 输入 变量 应 调整 其 长 度 使 得 它们 的 协 方差 近似 相等 ， 因 此 可 以 保证 网 络 
中 的 不 同 罕 触 权 值 以 大 约 相等 的 速度 进行 学 习 。 

图 4- 11 说 明 依次 执行 规整 化 三 个 步骤 的 结果 : 消除 均值 ， 去 相关 性 ， 以 及 协 方差 均衡 。 

6. 初始 化 。 网 络 的 突 扰 权 值 和 闭 值 初 值 的 一 个 较 好 的 选择 对 一 个 成 功 的 网 络 设计 会 有 
豆 大 的 帮助 。 关 键 问题 是 ; 什么 是 好 的 选择 ? 

当 突 触 权 值 被 赋予 一 个 较 大 的 初始 值 ， 那 么 网 络 的 神经 元 很 可 能 会 趋 于 亿 和 。 如 果 发 生 
这 种 情况 ， 反 向 传播 算法 中 的 局 域 梯度 呈现 出 一 个 很 小 的 值 ， 结 果 导 致 反 向 传播 学 习 过 程 很 
缓慢 。 然 而 ， 如 果 突 触 权 值 被 赋予 一 个 较 小 的 初始 值 ， 反 向 传 揪 算 法 可 能 就 在 误差 曲面 的 原 
点 的 一 个 非常 平缓 的 区 域内 进行 ， 特 别 对 于 反对 称 函数 (如 双 曲 正切 函数 ?的 条 件 下 ， 这 种 可 
能 性 就 更 大 。 不 幸 地 是 ， 这 个 原点 是 一 个 贰 点 ， 这 个 鞍点 是 一 个 稳定 点 ， 在 该 点 处 与 马 贰 正 
交 的 误差 曲面 的 曲率 为 正 ， 而 治 着 马鞍 方向 为 负 。 由 于 这 些 原 因 ， 使 用 过 大 或 过 小 值 初始 化 
突 秽 权 值 都 应 该 避免 。 从 当 的 初始 化 选择 位 于 这 两 种 极端 之 间 。 

具体 地 ， 考 虑 将 一 个 双 曲 正切 函数 作为 激活 函数 的 多 层 感 知 器 。 设 网 络 的 每 一 个 神经 元 
偏 置 为 0 我们 将 神经 元 7 的 诱导 局 部 城 表 示 为 


包 = 袜 
假设 网 络 的 每 一 个 神经 元 的 输入 的 均值 为 0 方差 为 1， 表示 为 
屿 = 五 六] =0 对 所 有 神经 元 


= 一 Q+E 
















































































和 
中 = Br -PP]= BE] =1 对 所 有 神经 元 f 
进一步 ， 假 设 输 入 值 都 是 不 相关 的 ， 即 
五 [7 和] = 全 < 
并 且 设 突 触 权 值 的 值 是 以 均值 为 0 的 均匀 分 布 抽取 的 一 组 数 
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图 4-4 二 维 输入 空间 的 清除 均值 、 去 相关 性 以 及 协 方差 均衡 适 算 的 图 示 
po = 王 [=0 对 所 有 (六 站 汶 
和 方差 


忆 = BC -wj =- 本 雪 ] 
此 我 们 可 以 将 诱导 局 部 域 wy 的 均值 和 方差 表示 为 











呈 = Eu = 到 [ 





中 = 五 [( 避 一 和 


对 所 有 (六 切 对 


症 or]- 六 mwl18[z] -0 


=- 补 立 ELwm]zyrm]= 袜 寻 3 四 


这 里 严 是 一 个 神经 元 的 突 触 连接 的 数目 





很 据 上 述 结果 ， 我 们 对 如 何 将 罕 角 
的 标准 偏差 位 于 它 的 sigmoi 








《4.48) 


权 值 初始 化 搞 述 一 个 好 策略 ， 使 得 神经 郊 族 导 局 部 域 








的 参数 s 和 所 设 值 的 双 








激活 函数 的 线性 部 分 和 饱和 部 分 的 过 淡 区 域 。 例 如 ， 如 前 所 还 
正切 函数 ， 当 式 (4.48) 中 的 o, = 1 时 可 以 满足 这 个 目标 ， 这 样 我 








过 过 感 吉 器 . 729 

















们 得 到 
= (4.49) 
此 ， 对 于 一 个 均匀 分 布 ， 它 需要 其 均值 为 9 而 方 益 将 与 神经 元 的 突 触 连 接 的 数目 成 反比 ， 
从 而 以 这 个 分 布 来 选择 突 触 权 值 的 值 - 


37. 从 提示 中 学 习 。 从 一 组 本 知 的 训练 例子 中 学 习 意 味 着 处 理 术 知 的 输 人 - 输出 映射 函 
数 护 ' )。 事 实 上 ， 学 习 过 程 利用 画 数 扎 , ) 例 子 所 包含 的 信息 来 推断 它 的 交 近 实现 。 从 例子 
中 学 习 的 过 程 可 以 推广 为 包括 从 提示 中 学 习 ， 这 可 以 由 在 学 习 过 程 中 允许 包括 我 们 已 有 的 关 
于 函数 六) 的 先 验 知识 来 实现 (AbuMostafa,1995 )。 这 些 知 识 包括 不 变性 、 对 称 性 或 关于 呆 
数 大 ) 的 其 他 知识 ， 它 们 可 以 用 来 加 速 关 ,) 的 多 近 实 现 的 搜索 ， 而 且 更 重要 的 是 ， 会 提高 
最 后 估计 的 质量 。 式 (4.49) 的 使 用 就 是 怎样 取得 这 一 点 的 例子 。 

8. 学 习 率 。 多 层 感知 器 的 所 有 神经 元 理论 上 应 以 同一 速率 进行 学 避 。 网 络 的 最 后 一 层 
的 局 域 梯度 通常 比 别 的 层 大 。 因 此 ， 最 后 一 层 的 学 习 率 参数 ?应 设 得 比 别 的 层 小 。 有 很 多 输 
人 的 神经 元 的 学 习 率 参 数 应 比 输入 较 少 的 坤 经 元 小 。 在 LeCun(1993) 中 提 到 对 一 个 给 定 的 神 
经 元 ， 其 学 习 淘 应 与 该 神经 元 的 突 触 连 接 的 平方 根 成 反比 。 关 于 学 习 率 我 们 将 在 4.17 节 中 
作 更 多 的 讨论 。 
4.7 输出 表示 和 决策 规则 

理论 上 ,一 个 好 类 分 类 问题 中 对 于 个 不 同类 的 并 组 成 整个 输入 空间 ， 我 们 需要 对 个 输 





































































































出 表示 所 有 可 能 的 分 类 决策 ， 如 图 4- 12 所 描绘 。 在 这 门人/ 
个 图 中 ,向量 避 指 由 多 层 感 知 器 分 类 的 严 维 随机 向 量 mm。 多 避 和 县 
x 的 第 个 原型 ( 即 ， 惟 一 的 样本 )。x 可 以 属于 的 开 个 
可 能 类 的 第 天 类 表示 为 @,。 用 多 表 示 响 应 于 员 的 网 络 图 4-12 模式 分 类 的 方 框 同 
的 第 正 个 输出 神经 元 的 输出 ， 表 示 如 下 

7 = 有 (Co)， 下 = 1.2.… ,有 《4.50) 


这 里 函数 尺 (-) 定 义 网 络 从 输 人 到 第 天 个 输出 所 学 习 的 映射 。 为 表示 方便 起 见 ， 令 
而 = [ybyagooyiy 了 = [Po 记 帮 ) Pet) = FCOO) (4.51) 
这 里 ER ) 是 一 个 向 量 值 前 数 。 在 这 一 节 我 们 想 解决 的 一 个 基本 问题 是 : 
在 一 个 多 层 感知 器 被 训练 后 ， 用 于 分 类 网 络 if 个 输出 的 最 优 决 策 规则 应 该 是 什么 ? 
很 清楚 ， 任 何 合理 的 决策 规则 都 应 该 建立 在 下 述 向 量 值 函数 的 基础 上 ， 
FE: 妈 " 习 X 一 了 和 民 " (4.52) 
一 般 来 说 ， 关 于 向 量 值 晒 数 确定 的 一 点 是 它 是 一 个 连续 二 数 并 使 经 验 风险 泛 函 最 小 : 
8 -去 六 1a -Feo (4.53) 


这 里 由 是 原型 z% 的 期 望 (目标 ) 输 出 模式 ，| ' 外 是 所 含 向 量 的 欧 儿 里 德 范 数 ， 闪 是 输 和 网 
络 进行 训练 的 样本 数目 。 式 (4.53) 准 则 的 本 质 与 式 (4.3) 的 代价 函数 一 致 。 向 量 值 函 数 F(- ) 
强烈 依 囊 于 用 子 网 络 训练 的 例子 (z ,由 )， 因 此 不 同 的 (z%,d) 值 会 导致 不 同 的 向 量 值 函 数 
FB(")。 注 意 ， 这 里 用 到 的 (% ,d ) 术 语 和 前 面 用 到 的 (xC) ,a7)) 相 同 。 

假设 现在 用 二 值 目标 值 来 训练 网 络 ( 当 网 络 使 用 logistie 函数 时 它 恰 巧 对 应 于 网 络 输出 的 
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了 730 用 了 入 





上 限 和 下 限 )， 可 以 与 为 


1 原型 x 属于 类 多， 
= 《4.54)》 
和 | 原型 x 不 属于 类 @@， 
基于 上 面 的 解释 ，%， 表示 为 妇 维 目标 向 量 


0 





1 | 一 第 大 个 元 素 

D 
对 一 组 有 限 的 相互 独立 且 同 分 布 (i.i.d) 药 训练 翌 本 使 用 反 向 传播 算法 训练 多 层 感 知 分 类 器 ， 
一 种 富有 吸引 力 的 假设 是 该 多 层 感 知 分 类 器 可 能 得 到 固有 的 后 验 类 概率 的 一 个 渐进 近似 。 这 


个 性 质 可 由 下 面 的 理由 证 实 (White,1989a; Richard and Lippmann,1991) : 
。 利用 大 数 定律 证 明 当 训 练 集 的 大 小 w 趋 于 无 穷 大 时 ， 最 小 化 式 (4.53) 中 代价 省 本 尺 


的 权 值 向 量 w 鸥 于 使 随机 量 过 1a-BCw,x) 1 的 期 望 最 小 的 最 优 公 值 向 量 mw ， 其 


中 是 期 望 响应 向 量 ，F(w, 妇 是 输 人 为 x 时 具有 权 值 向 量 w 的 多 层 感 知 器 所 实现 的 
逼近 值 (White,1989a )。 函 数 F(w,x) 明 确 表 示 对 权 值 向 量 w 的 依赖 ， 就 是 前 而 说 的 
F(x)。 

最 优 权 值 向 量 w" 使 得 网 络 实际 输出 F(w” ,x)， 是 给 定 输 人 向 量 x 期 望 响 应 向 量 的 
条 件 期 望 的 均 方 澡 差 最 小 的 估计 值 (White, 1989a ) 。 这 在 第 2 章 已 经 讨论 过 了 。 

对 于 1 对 M 的 模式 分 类 问题 ， 如 果 输 人 向 量 x 属于 6@,， 则 期 望 响 应 向 量 的 第 下 个 元 
素 等 于 1， 其 他 分 量 为 0。 因 此 对 于 给 定 的 x， 期 望 啊 应 商量 的 条 件 期 望 等 于 后 验 类 
概率 P(6@ | x)， 上 = 1，2，…，M(Richard and Lippmann,1991 ) 。 

因此 随 之 而 来 的 是 如 果 训练 集 足 够 大 且 反 向 传播 算法 没有 陷 人 局 域 极 小 ， 旭 一 个 多 层 感 知 分 
类 器 (使 用 logistie 函数 非 线性 性 ) 确 实 接近 于 后 验 类 概率 。 我 们 现在 可 以 回答 前 面 提出 的 问题 。 
具体 地 ， 我 们 可 以 说 一 个 适当 的 输出 决策 规则 是 由 后 验 概率 估计 产生 的 (近似 )Bayes 规则 ; 




















如 果 机 (K) > 卢 (X)， 对 所 有 了 天 (4.55) 
将 随 机 向 量 X 分 类 为 四， 这 里 玉 (Z) 和 尺 (X) 是 下 列 向 量 值 映射 函数 的 分 划 ; 
《X) 
FOOD = 人 
For) 


当 固有 的 后 验 分 类 分 布 互 不 相同 时 ， 以 概率 1 存在 惟一 的 最 大 输出 值 。( 这 里 假设 使 用 无 限 
精度 计算 ， 有 限 精度 时 才 可 能 出 现 多 于 一 个 最 大 值 的 情形 。) 决 策 规则 的 优点 是 比 基 于 输出 
“点 火 "概念 选择 类 属 关 系 的 常用 “特别 "法 则 提供 了 一 个 更 明确 的 决策 。 这 里 常用 "特别 "规则 
是 指 如 果 相 应 输出 值 比 固定 的 阔 值 大 (对 logistie 形 的 激活 函数 常用 0.5)， 向 量 x 是 赋值 给 特 
定 的 类 属 关系 ， 这 会 导致 多 重 类 赋值 。 
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在 4.6 节 我 们 指出 与 式 (4.30) 的 logistic 函数 相应 的 二 值 目 怀 值 [0, 1 常用 一 个 小 的 进 
行 扰 动 后 作为 实际 度量 值 ， 这 样 可 以 在 网 络 的 训练 中 避免 突 触 和 权 值 的 鲍 和 (由 于 有 限 的 数值 
和 精度 )。 和 作为 这 个 扰动 的 结果 ， 现 在 目 慰 值 是 非 二 值 的 ， 而 且 渐 进逼 近 素 ( 对 不 再 精确 是 好 
尖 的 一 个 后 验 概 灰 P(@，| x)(Hampsire and Pearnimutler, 1990 )。 相 反 PC(S，| 线性 映射 到 闭 
区 间 [e,1-e， 使 得 P(@ | x) =0 对 应 输出 s， 而 P(%,， | :0) = 工 对 应 1-e。 由 于 这 个 线性 映 
射 保持 相对 的 顺序 ， 它 并 不 影响 应 用 式 (4.55) 的 决策 规则 的 结果 。 

同样 有 趣 的 是 ， 当 一 个 决策 边界 由 一 个 多 层 感 知 器 的 输出 经 过 一 些 国定 六 和 昔 判 断 形成 
叶 ， 决 策 边 界 的 所 有 形状 和 方向 可 以 试探 地 (对 一 个 路 藏 层 的 情形 ) 用 相应 的 隐藏 神经 元 的 数 
日 和 与 之 连接 的 突 触 权 值 的 比 来 解释 (Lui, 1990 )。 然 而 ， 这 样 的 分 析 不 能 应 用 于 根据 式 
《4.55) 的 输出 决策 规则 形成 的 决策 边 和 只。 -个 更 合适 的 处 理 是 将 隐藏 层 神经 元 当成 非 线性 特 
征 检测 器 ， 它 对 原始 输入 空间 民 " (这 里 类 之 间 可 能 并 不 是 线性 可 分 的 ) 映 射 为 在 隐藏 层 激活 
输出 的 罕 问 ， 此 处 它们 更 有 可 能 是 线性 可 分 的 。 


4.8 计算 机 实验 


在 这 一 节 我 们 用 计算 机 实验 来 说 明 多 层 感知 器 作为 模式 分 类 器 的 学 习 行为 。 实 验 的 目标 
是 区 别 两 类 “重症 "的 二 维 Gauss 分 布 模式 (标号 为 1 和 2)。 用 @， 和 "6, 分 别 表 示 随 机 向 量 x 属 
































于 模式 1 和 2 的 事件 集合 。 然 后 ， 我 们 可 以 分 别 类 示 这 两 类 的 条 件 报 率 密度 函数 : 

类 4,: Ade) -ae 人 - 志 1x= 双 1 引 (4.56) 
其 中 ，h = 均值 向 量 = [0，0]7, 吕 = 方 差 =1 

关 .: As) = en 赤 1z- 户 昌 ] (4.57) 


其 中 , 巴 =[2，0]7， 或 =4 
假设 这 两 类 是 等 概率 的 ， 即 

Pi = Pa = 到 
4- 13a 分 别 甫 示 了 式 (4.56) 和 (4.57) 两 类 Gauss 分 布 的 三 维 图 。 输 入 向 量 古 = [zi , 思 ] 
且 输 入 空间 的 维 数 是 me = 2。 图 4- 到 是 类 1 和 类 2 的 各 自 的 散布 图 和 它们 的 联合 数 布 
图 中 分 别 从 两 个 过 程 中 选取 了 500 个 点 。 后 一 个 图 清楚 地 表示 两 种 分 布 的 重 丈 ， 这 表明 无 可 
避免 会 有 明显 的 分 类 错误 概率 。 


Bayesian 决策 边界 


最 优 分 类 的 Bayes 准则 在 第 3 齐 中 已 经 讨论 过 了 。 假 设 那 基 一 个 两 类 问题 ,1) 类 @, 和 
类 人 等 概率 ，(2) 正 确 分 类 的 代价 为 0，(3) 错 误 分 类 的 代价 是 相等 的 ， 我 们 发 现 最 优 决 策 边 
鼻 是 利用 似 然 比 检验 : 






























































全 
AGO 至 (4.58) 
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这 里 A(x) 是 似 然 比 ， 定 义 为 
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图 413 
3 概率 密度 函数 上 (XI%, ) b) 概 率 密度 函数 天 (xl%) 


号 
AD = 全 《4.59) 


s 是 检验 的 闭 值 ， 定 义 为 
s = 疝 =1 (4.60) 
对 考虑 的 例子 ， 我 们 有 
AGoD =- Se( -起 1z-m + 直上 
因此 ， 最 优 (Bayes) 决 策 边界 由 
ee( - 址 | -和 + 考 a- 冲 =1 


定义 ,或 者 等 价 地 定义 为 





到 lx- 下- 二 xz- 人 = 4 下 (6D 
利用 简单 的 运算 ， 可 以 将 式 (4.61) 简 化 为 
作 x-12 = 天 (4.62) 
这 里 
-2 (4.63) 
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要 
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强 
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加 刁 癌 
图 二 14 
可 类 6) 的 散布 图 “日 类 %9。 的 散布 图 o) 类 和 类 (B.。 的 总 体 散 布 图 
和 四 | 山 一 必 四 世 
2 之 
= | 引 ] (4.64) 








式 (4.62) 代 表 以 入 为 
Rayes 分 类 规则 可 陈述 如 下 : 


如果 似 然 北 A(X) 比 国 值 大 ， 划 将 观察 向 量 








心 和 7 为 半径 的 一 个 贺 。 令 Q 定义 为 这 个 加 


内 的 区 域 。 对 当前 问题 





分 类 到 类 人 | ， 套 则 就 分 类 到 类 “6 。 





国 
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对 于 这 个 实验 的 特殊 参数 ， 我 们 有 同形 决策 边界 ， 其 下心 位 于 x = | ，] ， 其 半径 为 "~ 
2,.34 ， 
用 米 友 示 正 确 分 类 结果 的 集合 ，" 表示 错误 分 类 结果 的 集合 。 根 据 Bayes 决策 规则 运 
行 的 分 类 加 错误 (错误 分 类) 概 诗 己 是 
已 =PPel@)+ 户 P(el) (4.65) 
这 由 Pei) ) 是 给 定 分 美 输 入 问 量 来 自 于 类 4,， 时 的 氏 误 分 类 的 条 件 梳 率 ，P( el 吧 ,) 关 似 ; p， 
和 户 分 别 为 奖 &， 和 4; 的 先 验 概率 。 对 于 我 们 的 问题 ， 可 以 从 数值 上 估计 概率 积分 ， 得 到 
P(e| @) ~ 0.1056 
P(e 1 吧 ) = 0.2642 
又 有 让 = 户 = 12， 所 以 错误 分 类 的 概率 是 
忆 = 0.1849 














等 价 地 ， 正 确 分 类 的 概率 为 
忆 =E- 已 <0.8151 


基 优 多 层 感 知 器 的 实验 确定 


表 4-1 列 出 多 层 感知 器 的 各 种 可 变 参数 ， 包 括 一 个 单 层 隐 藏 神经 元 ， 它 是 用 反 向 传播 算 
法 以 串 行 方式 训练 的 。 央 为 模式 分 类 的 最 终日 标 是 达到 可 接受 的 正确 分 类 率 ， 这 个 准则 用 于 
基 断 何 时 MLP( 用 作 一 个 模式 分 类 器 ) 的 各 种 可 变 参 数 是 最 优 的 。 
表 4-1 多 层 县 知 堪 的 可 变 参 数 














参 。 数 符 。 苇 _ 典 地 变化 范围 
降 蕊 神经 元 数 月 加 (2 
学 习 率 参数 《0, 昌 
动量 常数 CD 





隐藏 神经 元 的 最 优 数 目 ” 在 实际 处 理 时 对 于 决定 隐藏 神经 元 的 最 优 数 目 mi 的 问题 ， 利 
用 的 准则 是 能 够 产生 与 Bayes 分 类 器 性 能 “接近 ”( 通 常 差 1% ) 的 隐藏 层 神经 元 的 最 小 数 日 作 
为 最 优 隐藏 神经 元 数目 ， 因此， 实验 研究 开始 于 两 个 隐藏 层 神经 元 作为 起 始点 ， 模 拟 结果 列 
在 表 4-2 中 。 因 为 第 一 组 模拟 的 功能 是 仅仅 确定 两 个 隐藏 层 神经 元 是 谷 足 够 ， 学 习 率 参数 了 了 
和 劲 量 常数 "被 赋 子 任意 平常 的 值 。 在 每 一 个 模拟 过 程 进行 时 ， 对 类 @， 和 类 @, 以 相同 的 概 
率 随机 产生 Causs 分 布 训练 例子 ， 它 们 通过 网 络 重复 循环 ， 每 一 个 网 络 循环 代表 -个 回合 。 
回合 的 数目 的 选择 是 要 使 每 次 运行 的 训练 例子 总 数 为 一 个 常数 。 这 样 做 ， 出 于 训练 集 天 小 的 
变化 而 产生 的 潜在 影响 就 平均 掉 了 。 

表 4.2 ”两 个 隐 中 神经 元 的 模拟 结果 


















































运行 号 训练 集 数 日 回合 数 里 均 方 误 产 正确 分 类 概率 已 
1 500 320 0.2375 80.36 狗 
2 2000 0 0.2341 80.33 多 
3 8000 20 0.2244 80.47 光 








< 学 习 率 9=0.1 和 动量 = 0。 
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在 袁 4-2 和 下 面 的 表 中 ， 均 方 吕 卷 是 由 式 (4.53) 定 义 的 函数 精确 计算 的 。 我 们 强调 在 这 
些 南 中 包括 均 方 误 盖 仅 仅 把 它 当 作 一 个 记录 ， 内 为 一 个 小 的 均 方 误差 并 非 必然 隐 含 好 的 泛 化 
能 力 ( 即 对 从 来 没有 遇 到 的 数据 有 好 的 性 能 )。 

在 用 个 模式 串 练 网 络 收 伍 以 后， 正确 分 类 的 慨 率 理论 上 可 以 计算 如 下 : 

PKcA) = PPeN 的 )+PPeA |) (4.66) 
这 里 六 =z=12， 日 








Poem 1 ) = | wwACGx1@ Da (4.677 


Pei 1 ) = 1 Ges)ax (4.68》 


而 名 (YW) 是 决策 域 空间 区 域 ， 对 这 个 区 域 的 向 量 x( 代 才 随 机 向 量 X 的 . -次 实现 ) 多 层 感知 器 
(用 六 个 模式 训练 后 ) 将 它 分 到 类 这 个 区 域 通常 由 试验 发 现 ， 计 算 网 络 学 会 的 映射 函数 值 ， 
然后 运用 式 (4.55) 的 输出 决策 规则 就 可 以 找 出 这 个 区 域 。 不 李 的 是 ，P(e ,NG ) 和 P(c,NIG2) 
的 数值 估计 是 一 个 门 题 ， 因 为 描述 决策 域 Qi(w) 的 封闭 形式 的 表达 式 并 不 容易 找到 。 

因此 ， 我 们 转 和 求助 于 实验 逼近 ， 涉 及 对 训练 后 的 多 层 感 知 器 检验 另外 的 独立 例子 集 ， 
这 些 例 子 是 也 是 独立 地 以 相同 概率 从 类 8， 和 类 %; 的 分 布 中 随机 抽取 的 。 令 4 为 随机 变量 表 
示 从 内 个 实验 模式 中 正确 分 类 的 模式 数 。 因 此 比率 

















本 
是 -个 随机 变量 ， 它 提供 了 网 络 实际 分 类 性 能 p 的 最 大 似 然 无 偏 估计 。 假 设 关 于 N 对 输 
人 -输出 而 言 器 是 一 个 常数 ， 我 们 可 以 将 Chemoff 愉 (Devroye,1951) 困 于 p 的 估计 pv ， 得 到 
P(Ipw-pl>s)<2exp(-2eN) = 8 
对 于 s=0.00，8=0.01( 即 以 99% 的 攻 率 保证 对 p 的 估计 上 共有 给 定 的 容忍 度 ) 应 用 Cheme 他 界 
得 到 N= 26 500。 央 此 ， 我 们 挑选 一 个 = 32 000 的 测试 集 。 表 4-2 的 最 后 一 列 给 出 这 个 测 
试 集 的 正确 分 类 概率 的 估计 ， 每 一 个 结果 都 为 试验 的 十 个 独立 实现 的 平均 值 。 
在 表 4-2 中 列 出 的 有 两 个 隐藏 层 的 多 层 感 知 器 的 分 类 性 能 已 经 合理 地 接近 于 Bayes 性 能 
已 =81.51 锡 。 在 这 种 基础 上 ， 我 们 可 以 总 结 出 对 于 这 里 描述 的 模式 分 类 问题 使 用 两 个 隐藏 
神经 元 是 合适 的 。 为 了 强调 这 个 结论 ， 在 表 4-3 中 列 出 有 四 个 隐藏 神 经 元 的 感知 器 的 模拟 结 
果 ， 网 络 其 他 一 些 参 数 的 值 保持 不 变 。 虽 然 在 表 4-3 中 对 于 4 个 隐藏 神经 元 均 方 误差 比 帮 
4-2 中 对 2 个 神经 元 的 略 小 ， 但 是 正确 分 类 的 平均 率 并 没有 改进 ;事实 上 ， 还 略微 养 了 -- 点 。 
对 于 这 里 描述 的 计算 机 实验 的 以 后 部 分 ， 隆 藏 层 的 数目 保持 为 2。 
表 4-3 使 用 四 个 隐藏 神经 元 的 多 层 感 知 器 的 模 披 结 果 “ 
运行 号 训练 集 数 日 同人 数 日 均 方 误差 正确 分 类 概率 已 
上 
2 
3 














50 320 0.2199 .80% 
2000 的 0.2108 30.81 多 
8000 20 日 .2142 另 .19 黎 








、 学习 永 由 -0.1 和 动量 。= 0。 
最 优 学 避 和 动量 常数 ”对 于 学 习 率 参数 1 和 动量 常数 "的 最 优 值 ， 我 们 可 以 使 用 下 面 三 
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个 定 文中 的 任何 一 个 : 
1. 最 优 的 ?和 平均 
2. 最 优 的 了 和 平均 


最 小 





上 使 得 网 络 收敛 于 误差 





3. 最 优 的 ?1 和 平均 
性 能 的 网 络 配置 。 





这 里 使 用 的 术 诸 "平均 " 利 ” 











"最 坏 情况 ” 











上 以 最 少 的 回合 数 使 得 网 











络 收敛 于 在 整个 输入 空间 具有 最 好 的 泛 化 


指 的 是 训练 输入 - 输出 对 的 分 布 。 定 义 3 实际 上 是 理想 
情况 ;然而 很 难 应 用 因为 在 网 络 训练 过 程 中 最 小 化 南方 差 遂 常 是 最 优化 的 数学 准则 ， 而 且 正 


面 上 局 部 最 小 所 需 同 合 数目 最 小 。 
上 或 最 坏 情况 上 使 得 网 络 收 敏 于 误差 曲面 上 全 局 最 小 所 需 回 合 数目 





如 前 面 所 说 ， 在 一 个 训练 集 上 较 小 的 均 方差 并 不 意味 着 更 好 的 泛 化 能 力 。 从 研究 的 观点 来 
看 , 定义 2 比 定义 1 更 有 意义 。 比 如 在 Tao(1991) 中 给 出 关于 学 可 率 ? 的 最 佳 适应 值 的 严格 





结果 ， 学 习 率 1 的 最 





通 应 值 指使 得 多 层 感 知 器 佑 计 全 局 最 优 罕 触 权 值 矩阵 达到 期 望 的 精度 


所 使 用 的 回合 数 最 少 的 学 习 率 了 的 值 ， 虽 然 只 是 对 线性 神经 元 这 种 特殊 情况 。 然 而 通常 在 使 

















达到 局 部 最 小 信 。 这 样 计 算 的 总 体 - 平均 学 习 


来 单独 分 组 的 。 


用 定义 1 时 ， 试 探 方 法 和 实验 性 的 过 程 决 定 了 ?和 c 的 最 优选 择 。 
验 ， 在 某 种 意义 上 我 们 认为 是 在 定义 1 的 意义 下 最 优 。 

使 用 一 个 多 层 感 知 器 和 两 个 隐藏 神经 元 ， 对 学 习 率 参 数 YE 10， 
常数 xE 10.0,0.1,0.5,0, 外 的 组 合 进行 模拟 以 观察 它们 在 网 络 收 令 上 的 效果 。 每 个 组 会 用 相 
同 的 初始 随机 权 值 集 和 相 所 的 500 个 样本 集 来 训 
连续 进行 700 回合 后 结束 ; 








此 对 于 这 里 描述 的 实 





01,0.1,9,5,0.91 和 动量 





练 ， 以 便 实 验 结果 可 以 直接 比较 。 学 习 过 程 


这 个 训练 长 度 对 于 反 疝 传播 算法 来 说 被 认为 是 在 误差 曲面 上 足以 

















这 里 显示 的 实验 性 学 习 昌 线 指 出 如 下 的 趋势 : 
，。 通常 当 一 个 小 的 学 习 率 参数 1 产生 一 个 较 慢 的 收 和 敛 时 ， 它 可 以 比 一 个 大 的 ?找到 “更 


深 " 的 局 部 最 小 值 (在 误差 


























线 如 图 4-15a - 4-15d 所 示 ， 这 些 图 是 以 妇 








面 中 )。 这 个 结果 在 直观 上 是 令 人 满意 的 ， 因 为 一 个 小 的 


1 意味 着 一 个 最 小 值 的 搜索 将 会 比 在 大 的 1 的 情况 下 覆盖 更 多 的 误差 曲面 。 


，。， 当 人 0 时 。 使 用 ~1 使 





学 习 的 稳定 性 。 





收敛 速率 加 快 。 另 一 方面 ， 妆 人 >1 时 ， 又 要 求 ~0 来 保证 
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图 4 15 对 不 同 的 动量 = 和 学 习 率 参数 的 下 列 值 的 总 体 平均 学 习 曲 线 : 


aa) 四 =0.D1 


b3= 0.1 


=0.5 d1= 
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195 
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。 常数 1= ;0.5,0.91 和 a=0.9 的 使 用 导致 在 学 习 过 程 中 均 方 差 的 振 水 以 及 在 收敛 时 产 
生 更 大 的 均 方 益 值 ， 而 这 两 种 情况 都 不 是 期 望 的 效果 。 

在 图 4-16 中 ， 我 们 显示 “最 佳 "的 学 习 曲 线 ， 这 些 学 习 曲 线 是 从 网 4- 16 中 各 组 学 习 曲线 中 选 
择 出 来 的 ， 以 便 决 定 一 个 整体 上 的 最 佳 学 习 曲 线 ， 这 里 的 “最 佳 "是 从 前 面 所 描述 的 点 1 意义 
上 定义 的 。 图 4-16 显示 最 优 学 习 率 参数 必 大 约 为 0.1， 而 最 优 动 量 常数 ou 大 约 为 0.5。 因 
此 ， 表 4-4 总 结 在 其 余 实验 中 使 用 的 网 络 参数 最 优 值 。 图 4-16 中 每 条 曙 线 的 最 终 芍 方 误差 
在 ?和 的 范围 上 变化 并 不 明显 这 一 事实 ， 圈 示 该 问题 有 一 个 “表现 良好 ”( 即 相当 平 消 ) 的 误 
差 曲 而 。 
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038 学 习 率 参数 .y 动量 常数 .| 


























图 4-16 从 到 4-15 的 4 部 分 挑选 出 的 最 好 学 习 曲 线 


表 44 最 优 的 多 层 感知 器 设置 








参数 符 对 值 
寅 经 所 数 肯 mm 
学 习 率 参 数 地 041 
劲 展 常 娄 ut 0.5 





最 优 网 络 设计 的 评价 ”给 定 的 "最 优 ?多 层 感 知 器 具有 如 袁 4-4 总结 的 参数 ， 求 出 确定 次 
Less， 策 边界 、 总 体 - 平均 学 习 曲线 以 及 正确 分 类 的 概率 的 最 终 网 络 的 值 。 因 为 训练 集 有 限 ， 具 有 
最 优 参数 所 学 得 的 网 络 函 数 在 本 质 上 是 “随机 的 "。 因 此 这 些 性 能 度量 是 在 20 个 独立 训练 网 
络 之 上 的 总 体 平均 。 每 个 训练 集 由 1000 个 样本 组 成 ， 这 1000 个 样本 是 从 和 %@; 类 的 分 布 
中 以 相同 委 率 抽取 出 米 的 ， 并 以 随机 顺序 呈现 给 网 络 。 和 以 前 一 样 ， 训 练 持续 700 个 回合 ， 
为 了 上 正确 分 类 概率 的 实验 性 确定 ， 先 前 曾 使 用 过 的 32 000 个 例子 的 测试 集 再 次 被 使 用 。 
图 4- 17a 显示 在 总 体 为 20 的 3 个 网 络 的 3 个 最 佳 决 策 边 界 ; 图 4- 17b 显示 在 同样 的 总 体 
中 另外 3 个 网 络 的 3 个 最 差 决策 边界 。 阴 影 ( 贺 ) 的 Bayes 决策 边界 包含 在 两 个 图 中 以 便 参 考 。 
从 这 些 图 我 们 观察 到 由 反 向 传播 算法 爸 建 的 决策 边界 相对 于 属于 类 %, 或 叹 , 的 区 域 而 言 是 凸 
的 ， 这 里 属于 类 %, 或 6; 的 区 域 是 指 决 策 边 界 将 观察 向 量 x 归 类 到 4 或 @, 类 的 区 域 。 
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图 4-17 
aj3 个 分 类 精度 最 好 的 央 策 边界 图 : 80.39% ，80 .40% 和 中 .和 色 
口 3 个 分 类 精度 最 蔚 的 决策 边界 图 : 77.24 务 ，73.0i 甸 和 7] .53 


由 训练 样本 计算 出 来 的 性 能 度量 的 总 体 统计 特性 正确 分 类 概率 以 及 最 终 均 方差 罗列 了 


表 4-5 中 。 对 最 佳 Bayes 分 类 器 的 正确 分 类 概率 为 81.51%% 。 
表 4.5 性 能 度量 的 总 体 统计 特性 (样本 数 = 20} 
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正确 分 类 概 70W 
最 终 均 方 误差 和 .2277 
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4.9 特征 检测 

在 采用 反 向 传播 算法 学 习 的 多 层 感 知 器 的 运算 中 ， 隆 藏 神经 元 其 有 重要 的 作用 ， 这 是 因 
为 隐藏 神经 元 扮演 着 特征 恰 测 器 的 角色 。 随 着 学 习 过 程 的 进行 ,隐藏 神经 元 逐 浙 "发 现 "表征 
训练 数据 的 潜在 特征 。 它 们 之 所 以 这 样 基 通过 执行 一 种 非 线性 变换 将 输 人 数据 变换 到 -种 称 
之 为 隐藏 空间 或 特征 空间 的 新 空间 ， 隐藏 空间 或 特征 空间 这 两 个 术语 在 本 书 沾 互 搞 使 用 。 例 
如 在 模式 分 类 任务 下 新 空间 中 感 兴趣 的 类 可 能 比 最 初 的 输入 空间 更 易 彼 此 分 离 。4.5 节 所 讨 
论 的 XOR 问题 很 好 的 说 明了 这 一 点 。 

为 了 把 问题 放置 到 数学 环境 下 分 析 ， 假 设 . -个 多 层 感 知 器 有 一 个 包含 m; 个 隐藏 神经 元 
的 非 线 性 及， 以 及 一 个 包含 m = 旧 个 输出 神经 元 的 线性 层 。 输 出 层 中 选择 线性 神经 元 的 动 
机 是 希望 集中 注意 乃 于 隐藏 神 丝 元 对 多 层 感 知 器 运行 的 作用 。 对 网 络 突 触 权 值 进行 请 此 ,使 
网 络 的 目标 输出 与 实际 输出 之 间 的 均 方 误差 达到 最 小 化 ， 这 里 的 目标 输出 是 期 望 响 应 ， 实 际 
输出 是 指 为 了 响应 mo 维 输 人 向量 (模式 )， 用 对 总 共 六 个 模式 执行 总 体 平均 产生 的 输出 。 令 
(mm) 为 隐藏 神经 元 / 在 输 和 人 模式 = 下 产生 的 输出 。 由 于 嵌 人 答 个 隐藏 神经 元 的 sigmoid 激活 
函数 ，z5(m) 是 应 用 于 网 络 输入 层 的 模式 (向 量 ) 的 一 个 非 线性 函数 。 

在 输出 层 中 神经 元 撕 的 输出 为 



































Ja = 瑟 mec， 2 (4.69) 
这 里 wo 表示 应 用 于 神经 元 的 偏 置 。 被 最 小 化 的 代价 函数 为 
= 忆 (4 -mo (4.70) 
注意 这 里 要 人 用 运行 的 介 中 性 。 利用 式 (4.69) 和 (4.70)， 容 易 对 代价 打数 &. 以 紧凑 算 阵 
形式 重 轨 为 
虽 。= = 二 1 在 - WwWZ1 (4.71) 
这 里 W 是 网 络 输 出 屋 突 触 权 值 的 W x ms 年 阵 。 年 阵 苑 是 隐藏 神经 元 输出 ( 减 去 了 它们 的 平 








均值 ) 的 m, x 久 短 阵 ， 它 通过 应 用 于 网 络 输入 层 的 W 个 输入 模式 生成 ， 也 时 
= |(z (na) - 局 )57 = 12， 2 
这 里 凡是 5(n) 的 平均 值 。 相 应 地 ,年 阵 让 是 呈现 给 网 络 输出 层 的 目标 模式 (期 望 响应 ) 的 


 x w 和 矩阵 ， 也 即 
五 = 1(d(na)- 2 


这 里 上 是 怀 4z) 的 均值 。 认 识 到 由 式 (4.70) 定 义 的 。 的 最 小 化 是 一 个 线性 最 小 平方 问 
题 ， 其 解 出 











W = 旋 - (4.72) 
给 央 ， 这 里 宛 * 是 芝 矩 阵 的 伪 道 矩阵 。 色 ,最 小 值 如 下 (见习 题 4.7) : 
em = 大 of 蕊 7 - 旋 "( 息 7) + 季 71 (4.73) 


这 旦 上 "] 表 示 迹 算 子 。 因 为 用 先 阵 站 表示 的 目标 模式 固定 ， 根 据 多 层 感 知 器 的 突 触 权 值 来 
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最 小 化 代价 函数 苔 ,等 价 于 最 大 化 判别 丽 数 (Webb and Lowe,1990) 
3 -tccr] (4.74) 





这 里 算 阵 C, 和 已, 定义 如 下 : 
， mi xz 皂 阵 C, 是 根据 六 输入 模式 得 到 的 隆 藏 神经 元 输出 的 总 体 协 方差 矩阵 
C, = 入? (4.75) 
和 抢 阵 C7 是 C, 的 伪 逆 矩阵 。 
* mi x mi 征 阵 C, 定义 为 
C， = 207DZ27 (4.76) 
注意 由 式 (4.74) 定 义 的 判别 咀 数 9 完全 由 多 层 感 知 器 的 隐藏 神经 元 决定 。 并 且 没 有 对 组 成 非 
线性 变换 的 降 藏 层 的 导数 有 所 限制 ， 其 中 非 线 性 变换 负责 生成 判别 函数 9 。 在 隐藏 层 数目 大 
于 1 的 多 层 感知 器 中 ,年 阵 乞 表示 由 最 后 隐藏 神经 元 定义 的 空间 中 全 部 模式 集 。 
为 了 对 齿 阵 C, 做 出 解释 ， 考 虑 一 个 型 选 1(one-from-M) 编码 格式 的 特殊 选择 (Webb and 
Lowe,1990 )。 就 是 说 ， 若 所 选 模式 属于 那个 类 ， 则 对 该 模式 的 目标 值 (期 望 响应 ) 输 出 为 1， 
否则 为 0， 如 下 所 示 : 








0 
0 
dn) =| 1|< 二 第 大 个 元 素 ， dpn)E 人 
站 0 
0 
因此 ， 假 如 有 W 个 类 @， 下 = 1，2。…，1M， 其 中 以 个 模式 在 类 6, 中 并 且 有 
六 及 = 
我 们 因而 可 以 对 这 个 特殊 编码 方案 将 矩阵 C, 展开 为 如 下 形式 








Ci = 六 Mn 一 (Ps -Re)7 (4.77) 
下 = 上 

这 里 m, x 1 的 向 量 几 ,* 是 隐藏 神经 元 输出 关于 类 邑 , 中 凡 个 模式 的 向 最 平均 值 ， 而 向 量 本 
是 隐藏 神经 元 输出 关于 六 个 输 人 向 量 的 向 量 平均 值 。 和 根据 式 (4.77) ， 我 们 可 以 将 C, 解释 为 
隐藏 层 输出 的 加 权 类 间 协 方差 矩阵 。 

因此 ， 对 于 一 个 好 选 革 的 编码 方案 ， 多 层 感知 器 最 大 化 一 个 判别 函数 ， 该 判别 函数 为 
加 权 类 间 协 方差 第 阵 和 总 体 协 方差 年 阵 的 俯首 这 两 个 矩阵 乘积 的 迹 。 这 个 结果 非常 有 趣 ， 这 
是 因为 它 说 明 一 个 由 反 向 传播 学 习 的 多 层 感 应 属 是 如 何 融合 单个 类 中 的 样本 比例 作为 先 验 知 
识 。 
和 Fisher 线性 判别 式 的 关系 


由 式 (4.74) 定 义 的 判别 函数 3 对 于 多 层 感 知 器 来 说 是 俊 一 的 ， 它 与 Fisher 的 线 人 性 判别 式 
非常 相似 ，Fisher 的 线性 判别 式 描述 一 个 由 多 维 问题 到 一 维 问题 的 线 性 变换 。 假 设 变量 y 由 
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一 个 输入 问 量 x 的 元 素 线性 组 合 而 成 ， 也 就 是 说 * 定义 为 和 和 可 调 参 数 w( 包 括 一 个 储 置 为 
其 第 一 个 元 素 ) 的 向 量 的 内 积 ， 所 未 如 下 : 

了 二 WwWTX 
向 量 是 从 类 %, 和 类 %, 总 体 中 的 -- 个 抽取 出 来 的 ， 类 ， 和 类 %@, 的 总 体 由 于 它们 的 均值 加 
量 贞 和 和 筷 不 同调 区 别 。 区 别 这 两 个 类 的 Fisher 准则 定义 如 下 : 
wTCw 
wWrCW 








JJ(w) = 





这 里 Cs 是 类 问 协 方差 矩阵 ， 定 义 为 
C. = (有 -上 )e 一 凡 
而 C, 是 总 的 类 内 协 方 益 什 阵 ， 定 文 为 
C = 冯 (zs 一 向 )(xs -HT (一 本 )(xs 有) 
抵 名 


nn naE。 
类 内 协 方差 矩阵 C, 与 训练 集 的 样本 协 方差 矩阵 成 比 列 。 它 是 对 称 的 而 且 非 负 定 ， 在 训练 集 
足够 大 时 通常 是 非 奇异 矩阵 。 类 间 协 方 冀 算 阵 Ce 也 时 对 称 利 非 负 定 的 ， 但 它 是 奇异 矩阵 。 
一 个 特别 有 趣 的 性 质 是 矩阵 乘积 Csw 总 是 均值 向 量 莽 由 -上 的 方向 。 这 个 特 虱 由 C, 定义 
直接 得 出 。 
我 们 知道 定义 几 w) 的 表达 式 通称 为 广义 Rayleigh 商 数 。 最 大 化 Fw) 的 向 量 w 必须 满足 
如 下 条 件 : 
Ciw = MCw 《4.78) 
式 (4,78) 是 一 个 广义 特征 值 问题 ， 认 识 到 在 我 们 的 情况 中 惩 阵 积 Csw 总 是 沿 向 量 差 本 -上 
的 方向 ， 我 们 发 现 式 (4.78) 的 解 为 





w= Cn 一 书 ) 《4.79) 
该 解 称 为 Fisher 的 线性 判别 式 (Duda and Hart，1973)。 

回 到 特征 检测 的 问题 ， 回 忆 式 (4.14) 的 判别 函数 汪 和 模式 变换 到 网 络 隐藏 层 空间 的 类 问 
协 方差 矩阵 及 癌 体 协 方差 窍 阵 有 关 。 判 别 函 数 g% 起 着 与 Fisher 线性 判别 式 相同 的 作用 ， 这 就 
是 为 什么 神经 网 络 可 以 非常 好 的 执行 模式 分 类 任务 的 理由 。 


4.10 反 向 传播 和 微分 


反 向 传播 是 用 于 在 多 层 前 馈 网 络 的 权 
值 空间 中 实现 梯度 上 降 的 一 种 特殊 技 与 。 
其 基本 思想 是 有 效 计 算 一 个 近似 函数 
Fw,X) 的 偏 导数 ， 对 于 给 定 输入 向 量 x 的 
值 近 似 函 数 F(w,x) 由 网 络 根据 可 调整 权 
值 向 量 w 的 所 有 元 素 实现 。 这 一 点 决定 了 
反 向 传播 算法 的 计算 能 力 二 。 

进一步 ， 假 定 一 个 多 层 感 应 器 有 一 个 
mi 个 节点 的 输入 层 ， 两 个 隐藏 层 ， 以 及 




















输入 层 。 第 一 隐 蕨 层 。 促 二 隐藏 轩 ”输出 导 
一 个 单一 的 输出 神经 元 ， 如 图 4.18 所 示 。 图 4 B 具有 两 个 隐藏 层 和 -个 输出 层 的 多 层 感 知 和 
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权 什 向 明 w 的 元 素 根据 层 数 (从 第 一 个 隐藏 层 开始 ) 然 后 根据 层 内 的 神经 元 和 最 后 根据 神经 
元 中 罕 触 的 数 日 来 排序 。 令 mt 表示 从 神经 元 ; 到 展 1= 0，1，2，… 中 的 神经 元 ) 的 突击 权 
值 。 对 于 = 1， 对 应 于 第 一 个 隐藏 县 ， 序 号 ; 表示 一 个 源 结 点 而 不 是 个 神经 元 ， 对 于 1 = 
3， 对 应 于 图 4-18 的 输出 层 ， 我 们 有 j = 1。 对 于 一 个 特定 的 输 和 向量 x= -os 
我 们 希望 计算 函数 P(w,x) 对 向 基 mw 的 所 有 元 素 的 导数 值 。 注 意 对 于 1 = 2( 即 第 二 个 隐藏 
层 ) ， 范 数 PCw,xz) 具 有 类 似 于 式 (4.@) 右 边 的 形式 。 我 们 包含 权 值 向 量 w 作为 函数 严 的 变 
量 ， 并 将 注意 力 放 在 其 上 。 

图 4-18 的 多 层 感知 器 被 结构 %( 表 示 一 个 离散 参数 ) 和 一 个 权 值 向 量 w( 由 连续 的 元 素 组 
成 ) 参 数 化 。 令 at 夫 示 从 输入 层 (1= 0) 到 层 1 = 1，2，3 内 的 节点 了 所 扩展 成 的 部 分 结构 。 
因此 ， 我 们 可 以 写成 





























KWw) = 9(dP) (4.80) 
这 里 p 是 激活 男 数 ， 然 而 ,sf 仅仅 被 认为 足 一 个 结构 符号 而 不 是 一 个 变量 ， 因 此 ， 改 写 式 
(4.1) 、(4.2)、(4.11) 和 (4.23) 使 之 在 这 种 情况 下 可 用 ， 我 们 得 到 如 下 结果 ， 





了 
am 罗 =g (de(sD) 《4.81) 
日 记 八 
2 时 -人 人 JadP ga Ja (4.82) 
徊 
F :> 
0 -olDgCd)x[ DoRwCaag] 人 9) 
中 加 


这 里 Y 是 非 线 性 p 关 于 其 输入 的 偏 导数 ，* 是 输入 疝 量 x 的 第 让 个 元 素 。 用 相似 的 方法 我 
们 可 以 得 到 一 般 的 具有 更 多 的 隐藏 层 和 在 输出 层 上 有 更 多 神经 元 的 现 络 的 偏 导 等 式 。 
式 (4.81) 亩 (4.83) 对 于 计算 网 络 函 数 P(w, 允 关于 权 值 向 量 w 的 元 素 变化 的 灵敏 度 提 供 
了 基础 令 w 表 示 权 值 向 量 w 的 元 素 ，F(w,x) 关 于 ww 的 灵敏 度 定义 为 
Sr -9 下 


”= Dove， 
由 于 这 个 原因 我 们 把 图 4-7 中 信和 号 流 图 的 较 低 部 分 称 为 “灵敏 度 几 "。 


Jacobi 矩阵 


令 四 表示 一 个 多 层 感知 器 自由 参数 ( 即 突 触 权 值 和 偏 置 ) 的 总 数 ， 参 数 按 形 成 权 值 向 量 
亚 的 方式 排序 。 令 w 表 朱 用 于 训练 网 络 的 样本 总 数 。 对 于 训练 集中 的 给 定 样本 xX(n)?， 利 
反 向 传播 我 们 可 以 计算 近似 函数 FUw,x(n)] 对 权 值 向 量 w 元 素 的 铀 导数。 对 于 mn = 1， 
2，…, 人 重复 上 述 计算 ， 最 后 得 到 一 个 wx 刺 的 偏 时 数 挎 阵 。 这 个 矩阵 被 称 为 多 层 感 知 器 
的 在 x(m) 处 Jacobi 年 阵 到 Jacobi 怎 阵 每 列 对 应 于 训练 集中 的 一 个 样本 。 

实验 证 据 显示 许多 神经 网 络 训练 问题 是 内 在 “病态 的 ”， 导 致 Jacobi 矩阵 本 几乎 总 是 秩 记 
弛 的 (Saarinen et.aL,,1991 )。 和 扼 阵 的 秩 是 矩阵 的 列 或 行 的 线性 无 关 组 的 数目 中 最 小 的 一 个 。 
候 如 秩 小 于 min(N, 秃 )， 我 们 说 Jacobi 第 阵 了 是 秩 亏 损 的 。 在 Jacohi 矩阵 中 任何 的 秩 亏 损 导 
致 反 向 传播 算法 仅仅 得 到 可 能 搜寻 方向 上 的 部 分 信息 ， 从 而 导 敏 训练 时 间 过 长 。 


4.11 Hessian 矩阵 
代价 范 数 志 。(w) 的 Hessian 矩阵 用 卫 表 示 ， 定 义 为 g。(w)? 对 权 值 向 量 mw 的 二 阶 导数 ， 显 








所 好 








































































































144 ， 型 4 千 





示 为 
了 最 (四 ) 
下 = 5 

Hessian 气 阵 在 研究 神经 网 络 中 起 着 重要 作用 ; 我 们 尤其 构 担 出 以 下 几 点 ” : 

1.Hessian 插 阵 的 特征 值 对 反 向 传播 学 习 动 力学 有 着 次 远 的 影响 ; 

2.Hessian 拖 阵 的 逆 为 从 一 个 多 层 感知 器 中 修剪 ( 即 删 除 ) 不 重要 的 突 触 权 伪 提 供 基础 ， 
如 4.15 节 所 讨论 ; 

3,. Hessian 矩阵 是 形成 二 阶 优 化 方法 的 基础 ， 二 阶 优化 方法 可 作为 反 向 传播 学 习 的 替代 ， 
如 4.18 节 所 讨论 。 

在 4.15 节 给 出 一 个 计算 Hessian 矩阵 的 选 代 程序 ”" ， 在 本 节 中 我 们 将 注意 放 在 点 lo。 

在 第 3 章 我 们 说 明了 Hessian 扼 阵 的 特征 结构 对 LMS 算法 的 收敛 性 质 有 重大 影响 。 它 对 
反 向 传播 算法 也 - 样 ， 但 是 更 为 复杂 。 典 型 地 用 反 向 传播 算法 来 训练 的 多 层 感知 器 其 误差 曲 
面 的 Hessian 矩阵 有 如 下 的 特征 值 组 合 (TeCun, et al, ,1991;LeCun ,1993) : 

。 小 特征 值 的 数目 很 少 ; 

*。 中 等 大 小 的 特征 值 的 数目 很 多 ; 

。 大 特征 值 的 数 日 很 少 。 

影响 这 个 组 合 的 因素 可 分 组 如 下 ; 

。 非 零 均 值 的 输入 信号 或 非 零 均值 的 神经 元 活 导 输出 信和 号。 

。 输入 信号 向 量 的 元 素 之 间 的 相关 性 和 神经 元 诱导 输出 信和 叶 之 间 的 相关 性 。 

。 代价 函数 对 于 网 络 中 神经 元 突 侈 权 值 的 二 阶 导数 随 着 我 们 从 一 层 到 下 一 层 进 行 处 理 

有 很 宽 的 变化 范围 。 在 较 低 的 层 中 二 阶 导 数 通 常 更 小 ， 这 样 突 触 权 值 在 第 一 隐藏 层 
的 学 习 很 慢 ， 但 在 最 后 一 层 就 学 习 较 快 。 

从 第 3 章 我 们 可 以 回忆 起 LMS 算法 的 学 习 时 间 对 条 件数 Xu/ 的 变化 很 灵敏 ， 这 里 ke 
是 Hessian 矩阵 最 大 的 特征 值 ， 而 Xe 是 Hessian 矩阵 最 小 的 非 0 特征 值 。 实 验 结果 显示 反 和 疝 
传播 算法 有 着 相同 的 结果 ， 反 向 传播 算法 是 LMS 算法 的 一 个 推广 。 对 于 非 零 均值 的 输 人 ， 
它 的 比值 Ne- 和 mw 比 相应 的 零 均 值 输入 的 比值 要 大 : 输入 的 均值 越 大 ， 比 值 kw 人: 越 大 (见习 
题 3.10)。 这 个 疯 察 对 反 向 传播 学 习 动 力学 有 着 重要 意义 。 

为 了 学 习 时 间 最 小 化 ， 应 避免 使 用 非 零 均值 的 输入 。 现 在 ， 就 考虑 应 用 于 一 个 多 层 感知 
器 的 第 一 隐藏 层 的 神经 元 的 信和 号 向 量 x( 即 应 用 于 输 人 层 的 信和 号 向 量 ) 而 论 ，x 应 用 于 网 络 之 
前 先 减 去 它 的 每 个 元 素 一 个 平均 值 是 很 容易 的 。 但 是 将 信号 应 用 到 剩 下 的 隐藏 层 和 输出 层 中 
葛 神 经 元 情况 又 会 如 何 呢 ? 这 个 问题 的 答案 在 于 网 络 中 使 用 的 激活 函数 的 类 型 。 假 如 激励 函 
数 是 非 对 称 的 [比如 logistic 画 数 )， 每 个 神经 元 的 输出 界 于 [0,1] 区 间 。 这 样 的 选择 为 那些 位 
于 网 络 中 第 一 隐藏 层 之 后 的 神经 元 带 来 了 一 个 系统 偏差 源 。 为 了 克服 这 一 问题 我 们 需要 利 
一 个 如 局 双 曲 正切 函数 的 反对 称 本 数 。 对 于 后 一 种 选择 ， 每 个 神经 元 的 输出 可 以 是 区 间 
[ -1,1] 中 的 任何 正 值 和 负 值 ， 在 这 种 情况 下 ， 它 的 均值 可 能 为 0。 假 如 网 络 连 接 数 很 大 ， 
用 反对 称 激 活 函 数 的 反 向 传播 学 习 可 能 比 一 个 使 用 非 对 称 激活 函数 的 相似 过 程 有 着 更 快 的 收 
伍 ， 对 此 也 被 经 验证 明 (LeCun et al. ,1991 )， 这 为 4.6 节 描 述 的 启发 3 提供 合理 竹 依据。 


4.12 泛 化 
在 反 向 传播 学 习 中 ， 我 们 一 般 从 一 个 训练 样本 开始 ， 而 且 通 过 向 网 络 中 装载 (编码 ) 尽 可 
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能 多 的 训练 样本 来 使 用 反 向 传播 算法 计算 一 个 多 层 感知 器 的 突 触 权 值 。 希 望 这 样 设计 的 神经 
网 络 可 以 泛 化 (推广 )。 对 于 从 未 在 生成 或 训练 网 络 时 使 用 过 的 测试 数据 ， 若 网 络 计算 的 输 
人 -输出 映射 对 它们 来 说 是 正确 (或 接近 于 正确 ) 的 ， 我 们 认为 网 络 的 泛 化 是 很 好 的 ; 术语 


























' 琵 化 "是 从 心理 学 中 借用 来 的 。 这 号 








取出 来 的 。 

学 习 过 程 { 即 神经 网 络 的 训 
练 ) 可 以 看 作 古 一 个 “曲线 拟 合 ” 
的 问题 。 网 络 本 身 可 以 被 简单 地 
认为 是 一 个 非 线性 输 人 - 输出 映 
射 。 这 个 观点 允许 我 们 不 再 把 神 
经 网 络 的 泛 化 看 作 是 它 的 一 个 神 
秘 的 特性 ， 而 是 作为 相当 简单 的 
关于 输 和 人 数据 非 线性 播 值 的 结果 
【Wieland and Leighton, 1987 )。 这 
种 网 络 能 够 完成 有 意义 的 插值 过 
程 主要 是 因为 具有 连续 激活 函数 
的 多 层 感 知 器 导致 输出 函数 同样 
也 是 连续 的 。 

图 4- 19a 表明 一 个 假定 的 网 
络 是 如 何 进行 泛 化 的 。 图 中 描绘 
的 曲线 所 代表 的 非 线性 输 人 / 输 
出 映射 是 由 网 络 通过 对 标 有 " 训 
练 数据 "的 点 进行 学 习 的 结果 来 
计算 的 。 曲 线 上 标 有 “ 泛 化 "的 点 
就 是 由 这 个 网 络 完成 的 播 值 结 
果 。 



































一 个 神经 网 络 设计 得 具有 很 
好 泛 化 能 力 ， 即 使 在 输入 与 训练 
网 络 的 样本 稍 有 不 同 的 情况 下 它 
也 能 够 产生 一 个 正确 的 输入 / 输 
出 呐 射 ， 这 正如 图 中 所 显示 的 一 
样 。 然 而 ， 当 一 个 神经 网 络 对 太 
多 的 样本 进行 学 习 的 时 候 ， 它 可 
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输出 





假定 测试 数据 是 从 用 于 生成 训练 数据 的 相同 数据 集 抽 





非 线性 肌 射 














非 线性 瑞 射 
SA 
输入 


图 4-19 
a) 恰 当地 撤 合 数据 ( 息 好 瑟 化 ) 口 过 拟 合 数 据 ( 差 的 证 化 ] 





能 会 完成 对 训练 数据 的 记忆 。 这 种 情况 可 能 会 出 现在 找到 一 个 存在 于 训练 数据 中 但 对 于 将 要 

建 模 的 固有 函数 却 为 假 的 特征 (例如 ， 由 于 噪声 ) 的 时 候 。 这 种 现象 称 为 "过 拟 合 " 或 者 “过 训 

练 "。 当 网 络 被 过 训练 的 时 候 ， 它 就 失去 了 在 相近 输 人 /输出 模式 之 间 进 行 泛 化 的 能 力 。 
通常 ， 用 这 种 方法 把 数据 装载 到 多 层 感 知 器 要 求 使 用 比 实际 需要 更 多 的 隐藏 层 神经 元 ， 














结果 导致 在 网 络 的 突 触 权 值 中 存储 了 输入 空间 中 由 于 噪 声 引 起 的 非 期 望 因 素 。 例 如 ， 在 图 












































4-19a 相同 的 数据 条 件 下 ， 图 4- 19b 显示 由 于 神经 网 络 中 的 记忆 导致 泛 化 不 佳 是 如 何 出 现 的 
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例子 。“ 记 忆 ? 本 质 上 是 一 个 “查询 表 "， 这 意 昧 着 由 神经 网 络 计算 的 输入 /输出 映射 是 非 光滑 
的 。 正 如 在 Paggio and Cinosi(1990a) 文 章 中 指出 的 那样 ， 输 入 /输出 申 射 的 光 浊 人 性 和 如 Deeam 
剃刀 (Oecam's razor) 之 类 的 模型 选择 标准 紧密 相关 ， 在 没有 相反 的 先 验 知识 情况 下 它 的 核心 
本 质 是 选择 “最 简单 "函数 。 针 对 于 我 们 给 出 的 讨论 ， 最 简单 函数 是 指 在 给 定 的 误差 标准 下 逼 
近 一 个 给 定 映射 的 两 数 中 最 光滑 的 函数 ， 因 为 这 个 选择 总 体 上 要 求 最 少 的 计算 资源 。 依 赖 于 
研究 规 象 的 规模 范围 ， 光 消 性 在 许多 应 用 上 问 样 是 自然 的 。 因 而 为 不 适 定 的 输入 /输出 关系 
寻找 一 个 光滑 的 非 线 性 映射 是 重要 的 ， 使 得 网 络 能 够 根据 训练 模式 将 新 模式 正确 地 分 类 
(Wieland and Leighton ,1987)。 


为 有 效 的 泛 化 给 出 充分 的 训练 集 大 小 


下 面 的 二 个 因素 是 对 泛 化 产生 影响 : (1) 训 练 集 的 大 小 ， 以 及 它 如 何 表示 感 兴趣 的 环境 ; 
《2) 神 经 网 络 的 体系 结构 ; 〈3) 当 前 问题 的 物理 复杂 度 。 无 颖 地 ， 我 们 无 法 对 后 者 进行 控制 . 
在 另外 的 两 个 因素 中 ， 我 们 可 以 从 两 个 不 同 的 方面 考察 泛 化 问题 (Hush and Home,1993) : 
” 网 络 的 体系 结构 是 固定 的 (可 期 望 与 固有 问题 的 物理 复杂 度 一 致 ) ， 需 要 解决 的 问题 
是 决定 一 个 产生 好 的 泛 化 必须 的 训练 集 的 大 小 。 
”训练 集 的 大 小 是 固定 的 ， 感 兴趣 的 问题 吓 决定 最 好 的 网 络 体系 结构 使 得 具有 好 的 泛 
化 。 
在 它们 各 自 的 方法 里 这 两 种 观点 都 是 合理 的 。 当 前 我 们 集中 讨论 第 一 种 观点 。 
适度 的 训练 样本 大 小 或 样本 复杂 度 问 题 已 经 在 第 2 章 中 讨论 过 了 。 焉 如 在 该 章 中 指出 的 
那样 ，VYC 维 数 为 这 个 重要 的 设计 问题 的 原则 性 解决 方法 提供 了 理论 基础 。 特 别 地 ， 我 们 有 
与 分 布 无 关 和 最 坏 情形 下 的 公式 以 估算 能 够 足够 形成 一 个 好 的 泛 化 性 能 的 训练 样本 的 大 小 ; 
请 参见 2.14 节 。 不 幸 的 是 ， 我 们 经 常 发 现在 实际 涛 要 的 训练 样本 的 大 小 和 由 这 些 公 式 预 测 
的 训练 样本 的 大 小 之 间 存 在 着 下 大 的 数值 差异 。 正 是 这 个 差异 使 得 样本 复杂 度 问题 成 为 一 个 
持续 公开 的 研究 领域 。 
在 实践 中 ， 看 来 一 个 好 的 泛 化 事实 上 我 们 所 需要 的 全 部 是 训练 集 的 大 小 N 满足 条 件 
六 = of ) (4.85》 


已 
在 这 里 歼 是 指 网 络 中 自由 参数 ( 即 突 触 权 值 和 仿冒 ) 的 总 数 ，s 表示 测试 数据 中 容许 分 类 误差 
的 部 分 (正如 在 模式 分 类 中 一 样 )。0(- ) 表 示 所 包含 的 量 的 阶 数 。 例 如 ， 具 有 10% 误 益 的 所 
需 训 练 样 本 数量 应 该 是 网 络 中 自由 参量 数量 的 10 倍 - 

式 (4,.85) 与 用 于 LMS 算法 的 Widrow 经 验方 法 是 一 致 的 ， 后 者 指出 线性 自 适应 时 间 泪 波 
的 适应 迟滞 时 间 近 似 等 于 一 个 自 适应 抽 头 延迟 线 滤波 器 的 记忆 范围 除 以 误 调 节 (Widrow and 
Steams,1985)。LMS 算法 中 的 误 调节 扮演 的 角色 与 式 {(4.85) 中 的 误 善 s 有 某 些 相似 。 这 个 经 
验 规则 的 进一步 理由 将 在 下 一 节 中 介绍 。 


4.13 画 数 授 近 


一 个 由 反 向 传播 算法 训练 的 多 层 鳄 知 器 可 以 被 看 作 .个 实现 ” 般 性 质 的 非 线性 输入 / 输 
出 映射 的 实际 工具 。 具 体 地 ， 令 mo 表示 多 层 域 知 器 的 输入 ( 源 ) 节 点 的 数目 ， 令 W = mm 表 
示 网 络 中 输出 层 神经 元 的 数目 。 网 络 的 输 和 人 /和 输出 关系 定义 一 个 从 mu 维 欧 几 里 德 输 入 空间 
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到 形 维 欧 几 里 德 输出 空间 的 映射 ， 当 激活 函数 是 无 限 连续 可 微 的 时 候 ， 这 个 卫 射 也 是 无 限 
连续 可 微 的 。 在 用 这 种 输 人 /输出 映射 观点 来 评价 多 层 感知 器 能 力 的 过 程 中 ， 提 出 了 下 面 基 
本 的 问题 ， 

一 个 多 层 感知 器 的 输入 /和 输出 映射 能 够 提供 任何 一 个 连续 映射 的 近似 实现 ， 它 的 隐藏 层 
层 数 的 最 小 数目 是 多 少 ? 





通用 有 逼 近 定 理 

这 个 问题 可 以 用 一 个 非 线性 输 和 人 /输出 映射 的 通用 到 近 定 理 叫 来 具体 表达 ， 该 定理 陈述 
如 下 : 

令 驴 :) 是 一 个 非常 数 的 、 有 界 的 和 单调 增 的 连续 末 数 。 令 凡 表 示 mme 维 单位 超 立 方 体 
[0,1jm。 加 上 连续 品 教 空间 用 C( 太 ) 表 示 。 那 么 ， 给 定 任何 函数 广 3C( 太 ) 和 e>0， 存 在 
这 样 的 一 个 整数 mm 和 实 常数 上 ， 忆 和 下 ， 其 中 j = 1，…，mi， 7=1，…，mao， 使 我 们 可 
以 定义 

Pa 中 wa 可 (4.86) 
作为 /(-) 函 数 的 一 个 近似 实现 ; 也 就 是 说 ， 

| FPC yam) -sa < 
对 存在 于 输入 空间 中 的 所 有 zu ， 思 ，… ，xm 均 成 立 。 

通用 逼近 定理 可 直接 用 于 多 层 感 知 器 。 我 们 首先 注意 到 在 一 个 作为 多 层 感知 器 结构 的 神 
经 元 模型 中 作为 非 线性 部 分 的 ogistie 函数 [1 + ep( - s)] 是 一 个 真正 非常 数 的 、 有 界 的 和 
单调 递增 的 函数 ;因此 它 满足 函数 g(: ) 的 上 述 条 件 . 下 一 步 ， 我 们 注意 式 (4.86) 表 达 如 下 
所 述 的 多 层 感知 器 的 输出 : 











1. 网 络 具 有 me 个 输 人 节点 和 单个 由 mi 个 神经 元 组 成 的 降 藏 层 ; 输入 由 赔 ，…，xm 
表示 。 
2. 隐藏 神经 元 ; 具有 突 触 权 值 w ，…，uw。 ， 偏 置 。 


3, 网 络 的 输出 是 隐藏 层 的 线性 组 合 ， 带 有 定义 输出 层 突 触 权 值 的 w ，…，om 。 

道 用 通 近 定理 是 存在 性 定理 ， 它 与 精确 表示 相反 ， 为 任意 连续 函数 的 逼近 提供 数学 上 的 
基础 。 作 为 定理 的 本 质 ， 式 {4.86) 仅 仅 是 推广 有 限 Fourier 级 数 逼 近 。 事 实 上 ， 这 个 定理 说 
明 ， 对 于 多 层 感 知 器 计算 一 个 由 输入 x1，…，xm 和 期 望 ( 自 标 ) 输 出 六 xn ) 表 示 的 给 
定 调 练 全 的 一 致 逼近 求 说 ， 单 个 隐藏 层 是 足够 的 。 然 而 ， 定 理 并 没有 说 明 单个 隐藏 层 在 学 
习 时 间 、 实 现 的 难 易 程 度 或 者 (更 重要 的 ) 泛 化 意义 上 是 最 优 的 。 

吉 近 误差 的 界 

假定 网 络 使 用 sigmoid 函数 的 单 层 隐 藏 神经 元 和 线性 输出 神经 元 ，Baron( 1993) 建 立 了 多 

层 感知 器 的 允 近 性 质 。 网 络 通过 使 用 反 向 传播 算法 训练 ， 然 后 用 新 的 数据 测试 。 在 训练 过 程 
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中 ， 网 络 根据 训练 数据 学 习 目 标 函 数 中 的 特殊 点 ， 从 而 产生 由 式 (4.86) 中 定义 的 逼近 函数 
8。 当 网 络 遇 到 以 前 没有 兄 过 的 测试 数据 的 时 候 ， 网 络 函数 严 就 充当 目标 拟 数 中 新 的 点 的 估 
计 器 ; 即 = 六 
一 个 日 标 函 数 的 光滑 度 属性 用 它 的 Fourier( 变换 ) 米 表达 。 特 别 地 ， 用 Fourier 幅度 分 布 加 
权 后 的 频率 向 量 的 范 数 的 平均 值 作 为 函数 / 振 划 的 度量 标准。 令 所 @) 表 示 函 数 .ALx) 的 多 维 
Fourier 变换 ，xE 民 " :， moxl 疝 量 @ 为 频率 向 量 。 函 数 疱 *) 由 关于 它 的 Fourier 变换 函数 
7 四) 的 反 变 换 公 式 定义 如 下 : 
AD = | Fo)eeUaroaa (4.87) 


在 这 里 7= 一 I。 对 于 复 值 函 数 妃 o) ， 由 于 go) 是 可 积 的 ， 我 们 定义 于 数 /的 Fourier 幅 
度 分 布 的 ~- 阶 绝对 动量 如 下 : 
Cj Frx loleda (4.88) 


中 小 o | 为 四 的 欧 几 里 德 范 数 ，17(e) 为 郊 @) 的 绝对 值 。 一 阶 绝对 动量 C; 量化 函数 /的 
光滑 度 或 赴 则 性 。 
一 阶 绝对 动量 C 为 使 用 以 式 (4.86) 中 输入 /输出 喘 射 画 数 PR) 为 表示 的 多 层 感知 器 近 
上 头 z) 而 导致 的 误差 范围 的 界 提供 基础 。 近 似 误差 可 以 用 与 一 个 半径 "> 0 的 球体 中 = jx: 
x| 大 沾 中 任意 可 能 的 概率 测度 wx 相关 的 积分 半 方 误 差 来 衡量 。 在 这 个 基础 上 我 们 可 以 对 
Barron(1993) 提 出 的 近似 误差 范围 的 界 提出 如 下 命题 : 

对 于 每 个 具有 有 限 一 阶 绝对 动量 C 的 连续 函数 .FAx)， 以 及 每 个 mm >1， 存 在 一 个 由 式 
《4.86) 定 义 的 sigmoid 郑 数 的 线性 组 合 P(xz)， 使 得 


wo - Footao < 纪 


























其 中 C7= (2rC)。 
当 在 严格 属于 球体 吾 内 部 的 输入 向 量 x 的 值 集合 |x. 六 ,上 观察 函数 护 z) 的 时 候 ， 命 题 
的 结果 对 经 验 风险 提供 如 下 的 界 : 


&= 上 二 Wo) -Fr)7 < 乞 (4.89) 


在 Bamron(1992) 中 ， 利 用 式 (4.89) 的 青 近 结果 表示 使 用 具有 mo 个 输入 节点 和 mi 个 隐藏 神 经 
元 的 多 层 感 知 器 而 导致 的 风险 尺 的 界 如 下 : 
民 太 o[( 多 + of enoeN] (4.90) 

风险 中 的 界 中 的 两 项 表达 两 种 对 隐藏 层 大 小 互相 冲突 的 要 求 之 间 的 折衷 ; 

1. 最 佳 通 近 的 精确 度 。 为 了 满足 这 个 要 求 ， 根 据 通用 逼近 定理 隐藏 层 的 大 小 m, 必须 足 
够 大 ; 

2. 近似 的 经 验 拟 合 精确 度 。 为 了 满足 的 第 二 个 要 求 ， 我 们 必须 使 用 一 个 小 的 比值 my 
AN。 由 于 训练 集 的 国定 大 小 为 W， 降 藏 层 的 大 小 m, 应 该 保持 较 小 ， 这 跟 第 一 个 要 求 是 地 盾 
的 。 
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式 (4.90) 描 述 的 风险 丸 的 界 具 有 曙 外 一 个 有 趣 的 含意 。 符 草地 ， 我 们 看 到 假如 一 阶 绝 
对 动量 C 仍 是 有 限 的 话 。 相 对 于 输入 空间 维 数 m。 一 个 指数 规模 的 大 样本 集 对 于 得 到 ~- 个 
目标 函数 精确 的 估算 并 不 是 必须 的 。 这 个 结果 使 得 多 层 感知 器 作为 通用 有 逼 近 器 在 实际 条 件 下 
甚至 显得 更 重要 。 

经 验 拟 合 和 最 佳 逼近 之 间 的 误差 可 以 看 作 是 第 2 章 中 所 述 的 估计 误差 。 令 s 表示 估计 
误差 的 均 方 值 。 然 后 忽略 式 (4.90) 申 表达 式 的 第 二 项 的 对 数 因子 jogN， 我 们 可 以 推 基 出 一 个 
好 的 泛 化 所 需 的 训练 集 大 小 w 大 约 是 mmifa 。 这 个 结果 跟 经 验 公式 (4.85) 具 有 相似 的 数学 
结构 ， 记 住 mom, 等 于 网 络 中 自由 参数 四 的 总 数 。 换 句 话 说， 我 们 可 以 从 总 体 上 说 为 了 得 
到 好 的 泛 化 ， 训 练 样本 的 数 日 w 应 该 大 于 网 络 中 自由 参数 总 数 和 估计 误差 均 方 值 之 比 。 


维 数 灾 
出 现在 式 44.90) 所 猜 述 的 界 中 另 一 个 有 趣 的 结果 ， 是 当 对 隆 藏 层 的 大 小 通过 设 定 


有 
on 上 
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进行 优化 (也 就 是 风险 尺 关 于 最 小 化 ) 的 时 候 ， 这 时 风险 忍 由 0(CG V motlogNiN)) 限 定 。 
个 结果 的 一 个 令 人 惊奇 的 方面 是 根据 风险 天 的 一 阶 行为 ， 以 训练 集 大 小 W 的 函数 表达 的 
收敛 速率 的 阶 为 (UN)2( 乘 以 一 个 对 数 因 子 )。 在 另 一 方面 ， 对 传统 的 光滑 函数 (例如 多 项 式 
和 三 角 函 数 ) 我 们 有 不 同 的 行为 。 令 * 表示 光滑 度 的 一 种 度量 ， 定 义 为 函数 具有 连续 导数 的 
阶 数 。 那 么 ， 对 于 传统 光滑 函数 我 们 发 现 总 风险 中 的 极 小 极 大 的 收 伍 速率 的 阶 为 
(LA)2z0 mm)。 这 个 收 敏 速率 对 输 和 空间 维 数 me 的 依赖 就 是 维 数 灾 ， 这 严重 地 制约 这 些 函 
数 的 实际 应 用 。 使 用 多 层 感 知 器 进行 函数 逼近 看 来 提供 超越 于 传统 光滑 函数 的 优势 ; 但 是 ， 
这 个 优势 受 限 于 一 阶 绝对 动量 Cr 保持 有 限 的 条 件 ; 这 是 一 个 光滑 度 约束 。 
Richard Bellman 在 他 对 自 适 应 控制 过 程 (Bellman,1961) 的 研究 中 介绍 了 维 数 灾 。 为 了 从 几 
和 何 上 解释 这 个 概念 ， 令 x 表 示 一 个 me 维 的 输入 向 最 ，! (xd)1 .7 = 1 2,…,A 表示 训练 样 
本 。 采 样 密度 与 Nm 成 正比 。 令 函数 z 妃 xz) 代表 一 个 位 于 mo 维 输 和 人 空间 的 曲面 ， 它 近似 通 
过 点 1 ,二 ) 训 。 现在， 如 果 函 数 拨 切 是 任意 复杂 并 且 ( 对 绝 大 部 分 ) 是 完全 未 知 的， 我 们 
需 
因 








要 密集 的 样本 (数据 ) 来 进行 很 好 的 学 习 。 不 幸 的 是 ， 密 集 样本 在 “高 维 " 中 是 很 难 找到 的 ， 
产生 了 维 数 灾 。 特 别 地 ， 维 数 增加 的 结果 导致 复杂 度 呈 指数 增长 ， 从 而 引起 高 维 空间 中 
一 致 随机 分 布点 的 空间 填充 性 质 退 化 。 维 数 灾 的 基本 原因 如 下 ( Friedman,1995) : 


定义 在 高 维 空间 的 函数 很 可 能 远 远 比 定义 在 低 维 空间 上 的 通 数 复杂 得 多 ， 并 且 这 些 复杂 
的 东西 是 更 难以 区 分 的 。 


克服 维 数 灾难 的 惟一 可 行 办 法 是 除 训练 数据 外 结合 关于 这 个 函数 的 一 些 先 验 知识 ， 这 些 先 验 
知识 已 知 是 正确 的 。 

在 实际 中 ， 也 可 能 存在 这 样 的 争论 : 如 果 希 望 在 高 维 空间 中 得 到 好 的 估计 ， 随 着 输入 维 
数 的 增加 我 们 必须 增加 未 知 的 图 有 函数 的 光滑 度 (Niyogi and Girosi,1996)。 这 个 观点 将 在 第 5 
章 中 继续 深 人 讨论 。 
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可 行 性 考虑 


从 理论 的 观点 来 看 ， 通 用 逼近 定理 着重 要 的 ， 因 为 它 为 具有 单个 隐藏 层 的 前 馈 网 络 作为 
一 类 通 近 器 的 可 能 性 提供 了 必要 的 数学 上 只， 如果 没有 这 样 `… 个 理论 ,我 们 可 能 在 盲 日 寻找 
那些 并 不 存在 的 方法 。 然 而 ， 这 个 理论 并 不 是 构造 性 的 ， 即 它 实际 上 并 不 能 具体 实现 如 何 由 
陈述 的 遂 近 性 质 决定 一 个 多 层 感知 器 。 

通用 青 近 定理 假设 被 遥 近 的 连 然 本 数 是 给 定 的 并 日 逼近 可 用 一 个 神经 元 数目 无 限制 的 隐 
藏 屋 。 这 两 个 假设 在 多 层 感知 器 的 绝 大 多 数 实际 应 用 中 都 是 不 满足 的 。 

使 用 单个 陷 藏 层 的 多 层 感知 器 的 问题 中 隐藏 层 的 神经 元 倾向 于 全 局 地 相互 作用 。 在 复杂 
情形 下 这 种 相 扫 作用 使 得 在 -点 提高 它 的 各 近 同时 叉 很 难 不 恶化 它 在 另外 点 上 的 逼近 。 另 一 
方面 ， 在 具有 贞 个 路 藏 层 的 情况 下 逼近 (曲线 拟 合 ) 过 程 变 得 更 容易 苏 调 。 其 体 地 ， 我 们 可 以 
进行 如 下 处 理 (Funahashi, 1989;Chester, 1990) : 

上 从 第 一 个 隐藏 层 中 抽取 局 部 特征 。 特别 地 ， 利 用 在 第 一 个 隐藏 居中 的 一 些 神经 元 将 
输 人 空间 分 制 成 区 域 ， 这 层 中 另外 的 神经 元 学 习 表征 这 些 区 域 特 点 的 局 部 特征 。 

2, 从 第 二 个 隐藏 层 中 抽取 全 局 特征 。 特 别 地 ， 在 第 二 隐藏 层 中 的 一 个 神经 元 组 合 在 输 
人 空间 特定 区 域 操作 的 第 一 个 隐藏 层 的 各 神经 元 的 输出 ， 从 而 学 习 该 区 域 的 全 局 特征 并 且 在 
别处 的 输出 为 零 。 

这 个 两 阶段 的 逼近 过 程 在 实质 上 与 曲线 拟 合 的 样 条 插值 技术 是 相似 的 ， 相 似 的 意义 是 指 
神经 元 的 作用 效果 是 分 离 的 且 输 入 空间 不 同 区 域 的 和 逼近 可 以 单独 地 调整 。 一 个 样 条 就 是 一 个 
分 颁 多 项 式 逼 近 的 例子 。 

Sontag(1992) 为 在 逆 问 题 中 两 个 隐藏 层 的 使 用 提供 进步 理由 。 具 体 地 ， 考 虑 下 述 逆 问题 : 

给 定 一 个 连续 向 量 值 的 函数 f， 民 "一 加 ， 一 个 紧 子 集 @C 民 ” 包含 在 了 的 像 { 即 值 域 ) 之 
中 ， 并 且 e>0， 寻 找 一 个 向 量 值 冰 数 p: 民 " 一 向 " ， 使 得 满足 下 述 条 件 ， 

eta) -ul <s 对 于 uE 色 
这 个 问题 出 现在 逆 运 动 学 (动力 学 ) 中 ， 此 时 一 个 系统 的 观察 状态 x(n) 是 当前 动作 un) 和 系 
统 前 一 状态 x(n - 1) 的 阔 数 ， 表 示 为 

xna) =fxna -Dun)) 

假设 ?了 可逆， 使 得 对 于 任何 x(n - 1) 我 们 可 以 把 uCm ) 当 作 x(n) 的 函数 来 求解 。 画 数 了 代表 
直接 运动 学 ， 因 而 函数 9 代表 道 运动 学 。 在 实际 条 件 中 ， 我 们 的 动机 是 寻找 一 个 可 以 通过 多 
层 感知 器 计算 的 函数 p。 从 总 的 说 来 ， 不 连续 落 数 p 对 于 解决 道 运 动 学 问题 是 必需 的 。 有 趣 
的 是 即使 允许 使 用 具有 不 连续 激活 函数 的 神经 元 模型 ， 一 个 隐藏 层 并 不 能 充分 保证 所 有 这 类 
逆 问 题 的 解决 ， 但 是 具 有 两 个 隐藏 层 的 多 层 感知 器 对 于 每 一 个 可 能 的 轧 和 上 是 充分 的 
(Sontag ,1992)。 
4.14 交叉 确认 

反 轴 传 播 学 习 的 本 质 是 把 输入 /输出 映射 (由 标定 的 一 组 训练 样本 表示 ) 编 码 为 一 个 多 层 
感知 器 的 突 触 权 值 和 靖 值 。 希 望 网 络 被 很 好 地 训练 使 得 它 对 过 去 进行 充分 的 学 习 就 能 对 未 来 
进行 泛 化 。 从 这 个 观点 来 看 ， 学习 过 程 意味 着 对 这 个 数据 集合 给 出 网 络 参数 化 的 -- 个 选择 。 
具体 地 ， 我 们 可 以 把 网 络 选择 问题 看 作 是 在 一 组 候选 模型 结构 (和 参数) 集合 中 选择 符合 某 个 标 









































































































































准 的 “最 好 "的 一 个 。 

在 这 种 意义 下 ， 统 计 学 中 一 个 名 为 交叉 确认 的 标准 工具 提供 一 个 有 吸引 力 的 指导 原则 叫 
{Stone,1974,1978 )。 已 有 的 可 用 数据 集 首先 被 随机 分 割 成 一 个 训练 集 和 - -个 测试 集 。 这 个 训 
练 集 被 进一步 细 分 为 两 个 不 相交 子 集 : 

， 个 计 子 集 ， 用 来 选择 模型 。 

， 确认 子 集 ， 用 来 测试 或 者 确认 模型 。 

这 里 的 动机 是 用 一 个 与 参数 估计 数据 集 不 同 的 数据 集 确认 懂 型 。 用 这 个 办 法 我 们 可 以 
训练 集 来 估计 不 同 候 选 模型 的 性 能 ， 进 而 选择 "最 好 "的 一 个 。 然 而 ， 存 在 一 个 明显 的 可 能 性 
基 这 样 选 出 来 的 具有 最 好 表现 参数 值 的 模型 可 能 会 导致 对 确认 子 集 的 过 度 拟 合 。 为 了 防止 这 
个 可 能 性 的 出 现 ， 在 与 形 认 子 集 不 阿 的 测试 集 上 测量 被 选 模型 的 泛 化 性 能 。 

当 我 们 不 得 不 以 设计 - -个 具有 好 的 泌 化 性 能 的 大 型 神经 网 络 作为 目标 的 时 候 ， 交 叉 确 认 
的 使 用 是 特别 吸引 人 人 的。 例如， 我 们 可 以 使 用 交叉 确认 确定 具有 最 优 隐藏 者 经 元 数 月 的 多 层 
感知 器 ， 以 及 最 好 在 何 时 停止 它 的 训练 ， 正 如 在 下 面 两 小 节 中 所 述 的 那样 。 
模型 选择 

根据 交叉 确认 选择 模型 的 思想 ， 遵 循 一 种 与 第 2 章 所 述 结构 风险 最 小 化 相似 的 原理 。 现 
在 考虑 如 下 表示 的 布尔 函数 类 的 能 人 结构 : 

多 C 8 CC 多 
字 。= 和 玫 | = 1F(OXW) 和， 下 = 2 (4.91) 
也 就 是 说 ， 第 下 个 函数 类 包含 一 往 具 有 相似 体系 结构 的 多 层 感 知 器 ， 其 权 值 向 景 w 从 一 
个 多 维权 值 空间 9 , 抽出 。 以 酌 数 或 者 假设 如 = P(x,w)，wEqy， 为 特征 的 类 的 一 个 成 员 把 
输入 向 量 x 映射 到 10,1 } ， 这 里 x 是 以 某 末 知 概率 尸 从 输入 空间 % 中 抽取 出 来 的 。 在 所 述 结 
构 中 每 个 多 层 感 知 器 都 旦 由 反 向 传播 短 法 训练 的 ， 该 算法 负责 多 层 感知 并 参数 的 训练 。 模 型 
选择 问题 本 质 是 选择 具有 最 好 的 自由 参数 (《 即 突 触 权 值 和 阔 值 ) 数 目 宛 值 的 多 层 感知 器 。 更 
精确 地 ， 假 设 对 输入 向 量 x 的 期 望 响 应 标量 是 & = }0,1 上 ,我们 定义 泛 化 误 益 如 下 ， 
ee(P) = PPO 二 gd) 对 于 xE 沱 
给 出 一 个 标定 的 训练 样本 集 








得 


























了 = ix 人) 这 

我 们 的 目标 是 选择 特定 的 假设 F(x,w)， 当 从 测试 集中 给 定 输 人 时 它 最 小 化 所 得 泛 化 误差 
Er) 

下 厨 我 们 假设 贝 式 (4.91) 表 达 的 结构 具有 这 和 样 的 性 质 ， 即 对 于 任意 大 小 的 W 我 们 都 可 
以 找到 一 个 具有 数量 足够 多 的 自由 参数 的 数目 四.() 的 多 层 感知 器 ， 使 得 训练 数据 集 了 就 
可 以 被 合适 地 拟 合 。 这 只 不 过 重申 4.13 节 的 适用 远近 定理 。 我 们 把 se.( W) 称 为 拟 合 数 。 
允 w(A) 的 意义 在 于 ， 一 个 合理 的 模 再 选择 程序 应 该 选择 一 个 满足 多 < WAwW) 的 假设 玉 (x， 
w); 否则 网 络 复杂 度 将 会 增加 。 

令 一 个 位 于 0 和 ] 范围 之 间 的 参数 " 决定 估计 子 集 和 确认 子 集 之 间 的 训练 数据 集 5 的 划 











[3) 


分 。5 由 六 个 样本 组 成 ，(1 - rw 个 样本 分 配给 估计 子 集 ， 剩 下 的 my 个 样本 分 配给 确认 子 [9 


集 。 估 计 子 集 用 5 ' 表 示 ， 它 用 于 训练 多 层 感 知 器 的 一 个 车 套 序 列 ， 骸 套 结构 导致 复杂 度 递 增 
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的 假设 光 , ， 多 ，…， 肿 ,。。 由 于 了 由 (1 - >)W 个 样本 组 成 ,我 们 认为 刺 的 值 小 于 或 者 等 于 相 
应 的 拟 合 数 了。((1- mm)。 

又 确认 方法 的 使 用 导致 多 择 
8 = ,min 1 《4.92) 

















其 中 对 应 于 了 可 未 针 se((1- mAN)，e( 字 是 在 由 六 个 样本 组 成 的 确认 闻 集 了 "上 测试 时 由 
假设 8 产生 的 分 类 误 关 。 

关键 问题 用 如 何 具体 确定 参数 ， 以 决定 训练 集 5 在 估计 子 集 g ' 和 确认 子 集 3 "之 间 的 划 
分 。 在 Keams(1996) 播 述 的 研究 中 ， 利 用 VC 维 数 对 该 论题 进行 分 析 处 理 和 具体 的 计算 机 仿 
真 支持 ， 确 定 了 最 优 r 的 几 个 定性 等 点 : 

， 当 定义 输入 向 量 x 的 期 望 响应 4 的 目标 冰 数 的 复杂 户 相 对 于 料 本 大 小 的 N 是 很 小 的 

时 候 ， 交 叉 确 认 的 性 能 对 ， 的 选择 相对 不 胸 化 。 
。 随 着 目标 函数 相对 于 样本 大 小 N 变 得 更 复杂 的 时 候 ， 最 优 r 的 选择 在 交叉 稀 认 性 能 
下 具有 更 重要 的 影响 ， 并 生 * 自身 的 信 减 小 。 

。 + 的 一 个 单一 图 定 的 值 在 日 标 旺 数 复杂 度 的 一 个 相当 大 的 范围 内 保持 近乎 最 佳 。 
根据 Keams(1996) 报 告 的 结果 ，r 等 于 0.2 的 一 个 固定 值 看 来 是 一 个 合理 的 选择 ， 这 意味 着 
训练 集 的 809g 被 指定 为 估计 子 集 ， 剩 下 的 20% 被 指定 为 确认 子 集 。 

早 些 时 候 我 们 谈 到 复杂 庶 增 长 的 多 层 感 知 器 的 参 人 序列 。 对 于 规定 的 输入 和 输出 层 来 
说 ， 这 样 的 顺序 是 可 能 被 建立 起 来 的 例如， 建立 具有 * = p + 9 个 完全 连接 的 多 层 感知 器 
如 下 : 

。 个 具有 隐藏 神经 元 数目 按 尼 ，< 所 < … < 妃 ， 增加 的 单个 隐藏 层 的 多 层 感知 器 。 

。 4 个 具有 两 个 隐藏 层 的 多 层 感知 器 ; 第 一 个 隐藏 层 神 经 元 的 大 小 为 ， 第 二 个 隐藏 

层 神经 元 数 日 按 jn < ji < …< 如 递增 。 
当 我 们 从 一 个 多 层 感知 器 到 另 一 个 多 层 感知 器 的 时 候 ， 自 由 和 参数 数目 和 有 相应 的 增加 。 上 述 
基于 交叉 确认 方法 的 模型 选择 过 程 为 我 们 提供 一 个 决定 多 层 感知 器 中 隐藏 神经 元 数目 的 原 贡 性 
方法 。 尽 管 该 过 程 针 对 二 值 分 类 讨论 的 ， 但 是 它 可 等 价 地 应 用 到 多 层 感知 器 的 其 他 应 用 中 。 


训练 的 早期 停止 方法 


通常 ， 用 反 向 传播 算法 训练 的 多 层 感知 器 分 阶段 地 进行 学 习 ， 随 训练 过 程 的 进行 从 相当 
简单 的 映射 函数 实现 到 更 复杂 的 映射 函数 实现 。 这 通过 在 一 个 典型 情形 下 在 训练 中 均 方 误差 
随 着 训练 回合 的 增加 而 减少 的 例子 来 证 明 ; 均 方 误差 从 一 个 很 大 的 值 开始 ， 然 后 迅速 地 减 
小 ， 最 后 随 着 网 络 在 误差 曲面 接近 局 部 最 小 值 的 时 候 缓慢 地 减 小 。 由 于 以 得 到 好 的 活化 作为 
目标 ， 如 果 我 们 准备 通过 观察 它 自身 训练 得 到 的 学 习 曲 线 来 断定 什么 时 候 停止 训练 最 好 ， 这 
是 非常 困难 的 。 特 别 地 ， 根 据 4,12 节 关于 活化 所 说 的 ， 如 果 训 练 时 间 并 不 在 恰当 的 点 上 停 
下 来 ， 网 络 结束 时 过 拟 合 训 练 数据 是 可 能 的 。 

我 们 可 以 通过 交叉 确认 来 标记 过 拟 合 的 发 生 ， 为 此 训练 数据 被 分 成 估计 子 集 和 确认 子 
集 。 使 用 样本 的 估计 子 集 以 通常 方法 训练 网 络 ， 但 有 较 小 的 修改 : 训练 时 间 被 周期 性 地 停止 
〈 即 每 一 个 周期 都 有 许多 训练 回合 ) ， 并 且 在 每 个 训练 周期 之 后 都 由 确认 子 集 测 试 网 络 。 具 体 
地 ， 周 期 性 的 估计 伴随 确认 (estimation-followed-by-vajidation) 的 过 程 是 如 下 进行 的 ; 
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， 经 过 一 个 估计 (训练 ) 周 期 之 后 ， 多 层 感 知 器 的 突 触 权 值 和 编 置 都 已 经 固定 ， 网 络 是 
在 它 的 前 向 方式 下 运作 的 -从 而 对 俏 认 子 集中 的 每 个 样 木 测定 确认 误差 。 

*， 当 确 认 稻 段 完 成 的 时 候 ， 估 计 ( 训 练 ) 重 新 开始 另 一 个 周期 ， 这 个 过 程 被 重复 。 
这 个 过 程 称 作 训练 的 早期 停止 方法 [9 。 
4-20 显示 两 种 学 刁 曲 线 的 概念 形式 ， 
一 个 属于 估计 子 集 上 的 测定 误差 ， 另 一 个 属于 
确认 子 集 。 遂 常 ， 异 型 在 确认 子 集 上 的 表现 并 
不 像 它 在 估计 子 集 上 的 表现 纱 么 出 色 ， 它 的 设 。 鸭 方 和 认 样本 
计 是 基于 估计 子 集 的 。 估 计 学 习 曲 线 在 一 般 情 “误差 
襄 下 随 训练 回合 数 日 的 增加 而 单调 地 减 小 。 与 
此 相对 地 ， 确 认 学 习 昌 线 单调 地 递减 到 一 个 最 






























































小 值 ， 然 后 它 开 始 随 训练 的 继续 而 递增 。 当 我 | 时 期 信 止 点 训练 样本 
们 仅 观察 估计 学 习 曲 线 的 时 候 ， 很 明 吕 通过 埠 
过 确认 学 习 曲 线 上 的 最 小 点 我 们 可 以 得 到 它 的 训练 回合 数目 


更 小 的 值 。 然 而 在 实际 上 ， 网 络 在 越过 该 点 学 
习 到 的 主要 是 包含 在 训练 数据 中 的 噪声 。 这 科 
局 发 方法 意味 着 确认 学 习 曲 线 上 的 最 小 点 可 用 于 停止 训练 过 程 的 合理 准则 。 

如 果 训 练 数据 是 无 了 声 结果 将 会 如 何 ? 我 们 如 何 为 一 个 确定 的 情况 判断 它 的 早期 停止? 
这 种 情况 的 部 分 答案 是 ， 如 果 估 计 和 确认 误差 两 者 都 不 能 同时 地 趋 于 筹 心 这 暗示 着 网 络 并 没 
有 建立 函数 的 精确 模型 的 能 力 。 在 这 种 情形 下 我 们 所 能 做 到 的 最 好 事情 是 力求 最 小 化 误差 ， 
例如 积分 平方 误差 ， 它 (大 体 上 ) 等 价 于 最 小 化 通常 的 具有 均匀 输入 密度 的 全 局 均 方 误 差 。 

在 Amari et al.(1996) 提 出 的 过 拟 合 现象 的 统计 学 理论 为 训练 早期 停止 方法 的 使 用 提出 了 

告 。 这 个 理论 是 基于 集中 式 学 习 的 ， 并 有 得 到 包含 一 个 隐藏 层 的 多 层 感知 分 类 器 的 具体 讨 
算 机 仿真 的 支持 。 两 种 行为 模式 同样 依赖 于 训练 集 的 大 小 : 

一 种 是 非 汉 近 模式 ， 这 种 模式 的 w< 丈 ， 其 中 W 是 训练 集 的 大 小 ， 匈 是 网 络 中 自由 参 
数 的 个 数 。 对 于 这 种 行为 模式 来 说 ， 训 练 的 早期 停止 方法 通过 无 遗漏 训练 ( 即 用 完整 的 样本 
集合 进行 训练 并 且 训 练 过 程 不 被 停止 ) 确 实 提高 网 络 的 泛 化 性 能 。 这 个 结果 提示 当 六 < 30 丙 
的 时 候 过 拟 合 可 能 会 发 生 ， 并 且 交 叉 确认 停止 训练 的 方法 的 运用 具有 实际 的 优点 。 决 定 估计 
子 集 和 确认 子 集 之 间 训 练 数据 划分 的 参数 r 的 最 优 值 定义 为 


图 4-20 基于 交叉 确认 的 早期 停止 准则 示意 图 






























































_1_xY2 有 -TI-1 
人 
对 于 大 的 不 ， 这 个 公式 近似 为 
1 - 
rs] - 态 和 ,及 很 大 (4.93》 


例如 ， 对 于 不 = 100，rm = 0. ， 这 意味 着 训练 数据 的 93 色 被 分 配 到 估计 子 集 ， 而 剩 下 的 
?多 被 分 配 到 确认 子 集 。 

另 一 种 是 渐 近 模式 ， 这 种 模式 的 W > 30 有 。 对 于 这 种 行为 模式 来 说 ， 通 过 无 遗漏 训练 使 
用 训练 早期 停止 方法 产生 的 泛 化 性 能 的 提高 是 很 小 的 。 换 句 话说 ， 在 训练 样本 的 大 小 相对 大 
于 网 络 参数 的 数目 的 时 候 ， 无 遗漏 学 习 是 令 人 满意 的 。 

















26] 
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交叉 确认 的 变 体 


工 述 交叉 确认 的 方法 称 为 坚持 到 底 方 法 (hold out method)、 在 实际 中 还 有 另外 一 些 能 找 


到 它们 自 甘 应 用 的 交 义 确认 的 变 体 ， 特 萝 足 在 标定 样本 缺乏 的 时 候 。 在 这 样 的 情况 下 我 们 P 
以 通过 把 个 样本 的 可 用 集合 分 割 为 K 个 子 集 来 使 用 多 重 交 叉 确认 方法 ， 天 > 1; 这 里 假设 





只 对 屎 是 可 除 的 。 这 个 借 型 在 除了 一 个 子 集 之 外 的 其 他 
子 集 上 进行 训练 ， 人 确认 误差 通过 剩 下 子 集 上 的 测试 来 测 
量 。 这 个 过 程 总 共 被 重复 天 次 试验 ， 每 次 使 用 一 个 不 同 
的 子 集 进行 确 头 ， 如 图 4-21 所 示 天 = 4 的 情形 。 模 型 性 
能 的 评估 古道 过 求实 验 中 所 有 的 实验 的 确认 平 六 误差 的 
平均 值 来 进行 的 。 多 重 交叉 确认 存在 一 个 缺点 : 因为 模 
型 必须 训练 天 次 ， 它 可 能 需 槛 一 个 过 多 的 计算 量 ， 这 里 








实验 1 








实验 2 








实验 3 











天 验 4 因 一 























1 < 天福 放 。 

当 可 用 的 标定 样本 的 数目 闪 被 严格 限制 的 时 候 ， 我 
们 可 以 使 用 被 称 为 “ 休 -" 方 法 的 多 重 安 叉 确认 的 极端 形 
式 。 在 这 种 方法 中 ，w - 1 个 样本 用 来 训练 异型 ， 并 且 这 








个 模型 通过 剩 下 的 一 个 样本 的 测试 来 确认 。 这 个 实验 总 共 锌 重 复 w 次 ， 每 次 留 


几 4-2! 交叉 确认 的 坚持 到 底 方 

法 示意 图 。 对 一 给 定 的 实验 ， 带 

山 影 的 数据 集 用 来 确认 烧 型 ， 而 
琵 下 的 数据 用 来 训练 模型 





的 样本 来 进行 确认 。 然 后 通过 确认 的 平方 误差 在 内 次 实验 上 求 平均 。 





4.15 痪 络 修剪 技术 





出 一 个 不 同 


用 神经 网 络 解 决 现实 亿 界 中 的 问题 经 常 要 求 使 用 一 个 相当 庞大 的 高 度 结构 化 的 网 络 。 在 
此 背 最 下 出 现 的 一 个 实际 问题 是 在 保持 良好 人 性 能 的 同时 使 网 络 的 规模 最 小 化 。 基 有 最 小 规模 
的 神经 网 络 学 习 训练 数据 的 独 有 特征 或 者 噪音 的 可 能 性 更 小 ， 这 样 可 能 对 新 的 数据 有 更 好 的 
证 化 。 我 们 可 以 用 如 下 两 个 途径 中 的 一 个 来 达到 这 个 设计 日 标 ; 








” 网 络 生长 ， 在 这 种 方法 中 我 们 以 一 个 小 的 多 层 感知 器 姑 








F 始 ， 小 到 能 实现 当前 任务 即 


可 ， 然 后 仅 当 用 这 个 多 层 感知 器 不 能 实现 我 们 具体 的 设计 要 求 的 时 候 增加 一 个 新 的 


降 藏 神经 元 或 者 一 层 新 的 隐藏 神经 元 "5 





。 网 络 修 舱 ， 用 这 种 方法 我 们 以 一 个 很 大 的 具有 足够 解决 当前 问题 性 能 的 多 层 感知 器 
开始 ， 然 后 道 过 选择 的 和 有 序 的 方式 削弱 或 者 消除 其 些 突 触 权 值 来 修剪 多 层 感 知 器 。 
在 本 节 中 我 们 集中 评论 网 络 修 剪 的 方法 。 特 别 地 ， 我 们 描述 两 种 逼近 ， 一 种 基于 “正则 








化 "的 形式 ， 另 一 种 基于 从 网 络 中 "删除 " 某 些 连接 的 形式 。 
复杂 性 - 正则 化 











无 论 用 何 种 方式 设计 一 个 多 层 感 知 器 ， 实 际 上 我 们 都 是 对 生成 用 于 训练 网 络 的 输入 输出 
样本 的 物理 更 锭 建立 一 个 非 线性 模型 。 就 网 络 的 设计 而 论 在 本 质 上 还 是 统计 的 ， 我 们 需要 在 


训练 数据 的 可 靠 性 和 模型 的 适应 度 之 问 寻 找 一 个 适当 的 折 中 ( 即 解决 偏 普 方 差 














境 的 方法 )。 





在 反 向 传播 学 习 的 背景 下 ， 或 者 任何 其 他 的 监督 学 习 过 程 而 言 ， 我 们 都 可 能 通过 最 小 化 表述 





如 下 的 总 量 风险 以 实现 折 中 : 
RCmw) = 志 (WW) +》 量 (w) 


(4.94) 
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第 一 项 @,(w) 是 标准 的 性 能 度量 ， 它 阿 时 依 帧 于 网 络 ( 模 击 ) 和 输入 数据 。 在 反 向 传播 学 习 
中 ,， 它 被 典型 地 定义 为 均 方 误 益 ， 该 误差 的 计算 扩展 到 网 络 输出 神经 元 ， 并 且 它 在 每 一 回合 
的 基础 了 对 所 有 训练 样本 来 完成 。 第 二 项 名 .(w) 是 复杂 性 乱 罚 ， 它 单独 依赖 于 网 络 (模型 ); 
它 所 包含 的 内 容 利用 我 们 可 能 具有 的 关于 所 考虑 模型 的 解 的 先 验 知识 。 事 实 上 ， 式 (4.94) 所 
先 祥 的 总 量 风 险 形式 是 khonos 正则 化 理 沦 的 简单 陈述 ; 这 个 主题 将 在 第 5 章 详细 沦 述 。 对 
当前 的 讨论 ， 把 X 看 作 正则 化 参数 就 是 够 ， 它 代表 善 复杂 性 惩罚 项 关于 性 能 度 基质 的 相 
对 重要 性 。 当 和》 为 零 的 时 候 ， 反 向 传播 学 习 过 程 是 大约 束 的， 网 络 由 训练 样本 完全 确定 。 在 
只 一 方面 ， 当 和》 趋 于 无 穷 大 的 时 候 ， 这 意 昧 着 由 复杂 性 征 基 所 得 到 的 约束 自身 就 可 以 具体 确 
定 网 络 ， 用 另 一 种 说法 就 是 训练 样本 是 不 可 靠 的 。 在 权 值 衰减 过 程 的 实际 应用 中 ， 正 则 化 参 
数 》 被 赋予 两 个 极端 情形 之 问 的 某 个 位 置 的 秆 。 这 里 所 讲述 的 使 用 复杂 性 正则 化 所 高 归纳 能 
力 的 观点 是 完全 和 第 2 章 中 讨论 的 结构 风险 最 小 化 过 程 相 容 的 。 

在 一 般 设 壮 中 ， 复 杂 度 惩罚 项 .(w) 的 一 个 选择 是 第 上 阶 光 滑 积分 
ECwO = 了 | Go TCDax (4.95) 
这 里 PCx mW) 是 模型 实现 的 输 和 信箱 出 映射 ，R(x) 是 菜 个 加 权 函 数 ， 它 决定 在 这 个 输入 空间 中 
要 求 函 数 F(x,Ww) 光 滑 的 区 域 。 这 里 的 日 标 是 使 得 (x, w) 对 输入 向 量 x 第 天 阶 微分 较 小 。 
我 们 选择 卜 越 大 ， 国 数 F(x,w) 就 变 得 越 光 滑 ( 即 更 少 的 复杂 度 )。 

于 面 我 们 描述 多 层 感 知 器 的 三 种 不 同 ( 难 度 递 增 ) 的 复杂 性 正则 化 方法 。 

权 值 衰减 ”在 权 值 衰减 过 程 (Hinton,1989 ) 中 ， 复 热 性 惩罚 项 被 定义 为 网 络 中 权 值 向 量 
可 ( 即 所 有 的 自由 参数 ) 的 平方 范 数 ， 专 示 为 

ECw) = mwl = 六 让 (4.96) 
E 富 










































































其 中 集合 6 是 指 网 络 中 所 有 的 突 触 权 值 。 这 个 过 程 直 通过 强迫 网 络 中 的 一 些 突 触 权 值 取 近 
似 于 零 的 值 来 进行 的 ， 而 允许 其 他 的 权 值 保持 它们 相对 大 的 值 。 所 以 ， 网 络 的 权 值 大 致 分 为 
两 个 类 : 那些 对 网 络 (模型 ) 具 有 很 大 影响 的 权 值 和 那些 对 网 络 很 少 或 者 根 本 没有 影响 的 权 
值 。 在 后 一 类 中 的 权 值 称 为 多 余 权 值 。 在 不 进行 复杂 性 正则 化 的 情况 下 ， 这 些 权 值 道 过 它们 
很 可 能 取 完全 任意 的 数值 ， 或 为 了 得 到 训练 误 益 上 的 轻微 减少 而 促使 网 络 过 度 拟 合 训练 数 
据 ， 从 而 导致 很 差 的 推广 性 能 (Hush and Home,1993 )。 复 杂 性 正则 化 的 使 用 鼓 矶 多 余 权 值 取 
得 接近 于 零 的 数值 ， 因 而 提高 泛 化 能 力 。 

在 权 值 误 减 过 程 由 ， 多 层 感知 器 中 所 有 的 权 值 都 被 平等 地 对 待 。 这 就 是 ， 权 值 空间 中 的 
先 验 分 布 被 假设 集中 在 原点 附近 。 严 格 地 讲 ， 权 值 训 减 并 不 是 多 层 感知 器 复杂 人 性 正则 化 的 正 
确 形式 ， 因 为 它 并 不 符合 式 (4.95) 的 基本 原理 。 然 而 ， 它 是 很 简单 的 并 且 在 一 些 应 用 中 看 起 
来 工作 得 很 好 。 

权 值 剔除 ”在 这 第 二 个 复杂 人 性 正则 化 的 过 程 中 ,复杂 仁 丐 罚 定义 为 (Weigend el al, ,1991 ) 


Cijaoo)》 
0 = 妆 1 3 (7aa 《497 


其 中 wo 是 预先 指定 的 参数 ，to 是 指 网 络 中 某 个 突 触 ; 的 权 值 。 集 合 &。 是 指 网 络 中 所 有 的 
罕 触 连接 。 单 独 的 惩罚 项 以 对 称 的 方式 随 zjaee 变化 ， 如 图 4-22 所 示 的 那样 。 当 | 1 儿 mm 
的 时 候 ， 对 二 该 权 信 的 复杂 性 悉 基 (代价 ) 逼 近 于 零 。 这 个 条 件 的 含义 是 就 所 关注 的 从 样本 的 
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学 习 而 言 第 工 个 突 触 权 值 
是 不 可 靠 的 从 而 应 该 从 网 
络 中 蝇 除 。 而 另 一 方面 ， 
当 laei1 交 too 时 ， 该 权 值 的 
复杂 人 性 惩罚 (代价 ) 通 近 最 
大 值 1 这 意味 着 zz 对 反 
间 传 播 学 习 过 程 是 重要 的 。 
这 样 我 们 就 看 到 式 (4.%) 中 
的 惩罚 项 确实 达到 确认 网 
络 中 有 重要 影响 的 突 触 权 
值 这 个 期 望 目 的 。 同 时 注 
意 权 值 剔 除 过 程 包含 权 值 
衰减 过 程 作为 其 特殊 例子 ; 
特别 地 ， 对 于 大 的 wm， 除 
了 比例 因子 外 式 (4.2) 简 化 
为 式 (4.9%6) 的 形式 。 

严格 地 讲 ， 权 值 剔 除 



































过 程 同 样 不 是 多 层 感知 器 复杂 性 正则 化 的 正确 形式 ， 因 为 它 并 
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图 4-22 复杂 性 惩罚 项 (wyooo)27[1 





+ (zjao7] 关 于 必 Aam 的 图 示 


f 不 符合 式 (4.%5) 所 指定 的 描述 。 


虽然 如 此 ， 在 选择 适当 的 参数 wm 的 情况 下 ， 它 允许 网 络 中 的 一 些 权 值 事 得 的 值 比 利 用 权 值 误 


诚 取得 的 值 更 大 (Hush,1997 )。 


喜 近 光滑 器 ”在 Moody and Rigmvaldsson(1997) 中 ， 对 于 具有 单个 隐藏 层 和 输出 层 上 单个 神 





经 元 的 多 层 感 知 器 ， 建 议 采 用 











如 下 形式 的 复杂 度 惩罚 项 : 


8.(w) = 妆 |w 7 


(4.98) 


其 中 ww 是 输出 层 的 权 值 ，W 是 隐藏 层 第 / 个 神经 元 的 权 值 问 量 ; 等 p 定义 为 





2 -1 
了 = 


对 于 全 局 光滑 器 


2 对 寺 局 部 光滑 器 


其 中 大 是 FE(x,mw) 对 区 的 微分 的 阶 数 。 
对 于 一 个 多 层 感知 器 的 复杂 性 正则 化 来 党 ， 逼 近 光 滑 器 看 来 比 权 值 车 减 和 权利 剔除 更 精 

殉 。 与 早期 的 那些 方法 不 同 的 是 ， 它 能 完成 如 下 隔 个 工作 : 
1 它 区 分 隐藏 层 中 和 输出 层 中 论 触 权 值 的 作用 。 








2. 它 捕 获 这 两 种 权 值 集合 之 间 的 相互 作用 。 
然而 ， 它 比 权 值 衰减 或 者 权 值 蓟 除 具 有 更 复杂 的 形式 ， 


基于 Hessian 矩阵 的 网 络 修剪 


这 第 二 个 网 络 修剪 方 法 的 基本 思想 足利 用 

















(4.99) 





此 在 计算 复杂 度 上 有 更 多 的 要 求 。 


误差 曲面 的 二 次 导数 信息 得 到 网 络 复杂 庆 和 训练 


误差 性 能 之 间 的 折 中 方案 。 特 别 地 ， 构 造 误 差 曲 面 的 一 个 局 部 模型 ， 甫 析 地 预测 完 触 权 信 的 扰 
动 所 造成 的 影响 。 构 造 这 样 一 个 模型 结构 的 出 发 点 是 在 运行 点 附近 使 用 Tiylor 级 数 给 出 代价 函 
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数 双 .的 局 部 道 近 ， 捞 述 如 下 : 
1 


多, (WwW+ Am) = 吧 (W) +S(W)Aw + 二 AmHAw+ OAw1 ) (4.100) 


其 中 Amw 是 运行 点 的 扰动 ，g(w) 是 在 w 处 的 梯度 向 量 。Hessian 矩阵 同样 在 w 点 进行 计算 ， 
内 而 ， 为 了 正确 我 们 用 H(w) 来 表示 它 。 在 式 (4.100) 中 并 没有 这 么 做 仅仅 是 因为 简化 记号 。 

要 求 确认 -一 组 参数 使 得 从 多 层 感 知 器 上 删除 它们 而 代价 函数 吧 。 的 值 增长 最 小 。 为 了 用 
具体 硕 解决 这 个 问题 ， 我 们 进行 如 下 通 近 : 

1. 极 值 鼻 近 。 我 们 假设 参数 仅 在 训练 过 程 收敛 ( 即 网 络 被 完全 训练 ) 之 后 才 被 从 网 络 中 
删除 。 这 个 假设 的 含意 就 是 参数 的 取 值 为 误差 曲面 上 一 个 局 部 最 小 或 者 全 局 最 小 。 在 这 样 一 
种 情况 下 ， 梯 度 向 量 g 可 以 设 为 零 因 而 可 以 忽略 式 (4.100) 右 边 的 grAw 项 。 否 则 显著 性 度量 
(将 在 后 边 定义 ) 将 对 当前 问题 无 效 。 

2. 二 次 逼近 。 我 们 假设 局 部 最 小 或 者 全 局 最 小 周围 的 误差 曲面 是 近似“ 二 次 的 "。 因 此 
同样 可 以 忽略 公式 (4.100) 中 的 更 高 次 项 。 

在 这 两 个 假设 之 下 ， 公 式 (4.100) 被 简单 近似 为 
Ag。 = 8(w+ Am) -8(w) ~ 二 Aw7THAw 《4.101) 












































最 优 脑 损 伤 (Optimal Brain Damage,OBD ) 过 程 (LeCun et al. ,1990b ) 通 过 更 进一步 的 假设 简 
化 这 个 计算 : 假设 Hessian 矩阵 H 是 一 个 对 角 阵 。 然 而 . 在 最 伙 脑 外 科 (Opiimal Brmain 
Surgeon,0BS ) 过 程 (Hassibi et al. ,1992 ) 中 并 没有 进行 这 样 的 假设 ; 因此 ， 它 包含 DBD 过 程 作 
为 它 的 一 个 特例 。 从 这 里 开始 ， 我 们 遵循 DBS 策略 。 

OBS 的 目标 是 壮 一 个 突 触 权 值 为 零 使 得 式 (4.101) 中 给 出 的 多, 的 递增 增 量 最 小 化 。 令 几 
(nm) 表 示 这 个 特别 的 突 触 权 值 。 这 个 权 值 的 删除 等 价 于 条 件 


i++ =0 
或 者 LAw+mw =0 (4.102) 
下 立 ， 其 中 是 除了 第 ; 个 元 素 等 于 单位 1 之 外 其 他 所 有 元 素 均 为 零 的 单位 向 量 。 我 们 现在 
可 以 重申 OBS 的 目标 如 下 {Hassibi et al ,1992) ; 




















时 权 值 向 重 增 长 灾 化 Aw 最 小 化 二 次 型 于 Aw7TIAW， 使 它 满足 约束 条 件 JTAW+ iu 为 罕 ， 
然后 关于 下 标 未 最 小 化 。 

这 里 进行 两 个 层次 上 的 最 小 化 。 一 个 最 小 化 是 当 第 个 权 值 向 量 置 零 岳 对 仍 保留 的 突 触 
权 信 向 量 进行 的 ， 第 二 个 最 小 化 是 对 特定 被 修剪 的 向 量 进 行 的 。 

为 了 解决 这 个 约束 最 优化 问题 ， 我 们 首先 构建 一 个 Lagrange 算 子 


= 下 AwHAw - XIAw + mw) (4.103) 


其 中 和 是 Lagrange 乘 子 。 然 后 求 Lagrange 函数 $ 对 Aw 的 导数 ， 应 用 式 (4.102) 的 约束 条 件 ， 
并 且 利 用 矩阵 的 送 ， 我 们 发 现 权 值 向 量 w 中 的 最 佳 变化 是 


证 HI (4.104) 











点 w = 一 


Lagrange 算 子 $ 对 元 素 iw 的 相应 最 优 值 是 





因 ] 








四 
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训 ， 
2 
其 中 于” 是 Hessian 矩阵 阳 的 道 ，[ 了 - ] ,是 这 个 道 矩 阵 的 第 (5， 间 个 元 素 。 假 设 第 了 个 突 触 
权 值 w 被 丽 除 ， 对 Am 进行 优化 而 得 到 的 Lagrange 算 子 $ 称 为 mw 的 显著 性 (saliency)。 事 实 
上 ， 显 苦 性 $ 代表 由 于 zw; 的 贡 除 而 导 敏 的 均 方 误差 (性 能 标准 ) 中 的 增长 。 注 意 显 著 性 & 
是 与 w* 成 正比 的 。 这 样 小 的 权 值 在 均 方 误差 上 具有 小 的 影响 。 然 而 ， 从 式 (4.105) 中 我 们 看 
到 显著 性 $, 同样 是 与 送 Hessian 算 阵 的 对 角 元 素 成 反比 的 。 这 样 如 果 [H- ' ],,, 是 小 的 ,那么 
甚至 小 的 权 值 也 可 能 对 均 方 误差 有 实质 性 的 影响 - 

在 08S 过 程 中 ， 相 应 于 最 小 特征 值 的 权 值 被 选 为 册 除 的 权 值 。 此 外 、 剩余 权 值 的 最 佳 
变化 由 公式 (4.104) 给 出 ， 这 说 明 它们 可 以 语 道 Hessian 抢 阵 的 第 计 列 方向 被 校正 。 

Hassibi 等 人 在 他 们 的 论文 中 报告 在 一 些 基 准 的 问题 上 OBS 过 程 比 其 他 通过 使 用 权 值 天 
减 的 过 程 产生 更 小 的 网 络 。 同 时 报告 OBS 过 程 应 用 于 包含 单个 隐藏 层 和 18 000 个 权 值 的 多 
层 感知 器 NETualk 的 结果 ， 网 络 被 修剪 到 仪 有 1 560 个 权 值 ， 这 在 网 络 的 大 小 上 戏剧 性 的 
减少 。 归 因 于 Sejnowski and Rosenberg(1987) 的 NETuaIk 将 在 第 13 章 中 讲述 。 

计算 Hessian 矩阵 的 逆 。Hessian 抢 阵 的 送 HI 昨 OBS 过 程 的 公式 基础 。 当 网 络 中 自由 参 
数 四 的 数目 很 大 的 时 候 ， 计 算 了 ”的 问题 可 能 是 难以 处 理 的 。 设 多 层 感知 器 被 完全 训练 到 
误差 曲面 上 的 局 部 最 小 ， 下 证 我 们 描述 一 个 计算 H- 的 可 控 过 程 (Hassihi et al. ,1992) 。 

为 了 简化 表达 ， 假 设 多 层 感知 器 具有 单个 输出 昼 经 元 。 然 后 对 一 个 给 定 的 训练 集 我 们 可 
以 把 代价 本 数 表示 为 


3S = (4.105) 


时 











gw = 二 三 妆 ceor ) -oo 
其 中 o(m) 是 第 不 习 本 柱 和 四 网 络 交 沁 际 二 ，d(m) 是 相应 的 期 望 响 应 ，w 是 训练 集中 样 
本 的 总 数 。 输 出 o(n) 本 身 可 以 表示 为 
ofPn) = 严 (W, ID) 
其 中 王 是 多 层 感知 器 实现 的 答 人 输出 映射 函数 ，x 是 输 人 向量，w 是 网 络 的 罕 触 权 值 向 量 。 
因此 &。. 对 m 的 一 阶 导数 为 








饮 
2 - -和 0 Std(n) - oln)) (4.106) 
色 . 对 w 的 二 阶 导数 或 者 Hessian 矩阵 是 


HCN) = 一 多 
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- 广 袜 人 (ee Ca] faFCwxta)] _ 开 Y (am) __ oo 站 


《4.1077 
在 这 里 我 们 强调 了 Hessian 抢 阵 对 训练 样本 大 小 w 的 依赖 性 。 
在 网 络 是 被 完全 训练 的 假设 下 ， 即 代价 函数 吉 。 被 调整 到 误 益 则 面 的 一 个 局 部 最 小 值 ， 
说 ofn) 近 似 于 4(Cn) 是 合理 的 。 在 这 个 条 件 下 我 们 下 以 名 略 第 二 项 ， 这 样 公式 (4.107) 的 逼 
近 为 
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HAN) 六 (2 200 (4.108) 
为 了 简化 符号 ， 定 义 四 x1 间 量 
1 FE(wixCn)) 
ED =- 2 (4.109) 


它 可 以 通过 4.10 节 所 述 的 过 程 来 计算 。 然 后 我 们 就 可 以 用 递归 的 形式 重 守 公 式 (4.108) 如 
下 : 





Rn - EDErCD =- HTD+EDErD na (10) 


这 个 递归 正 是 所 请 的 矩阵 道 引 直 应 用 的 诗 确 形式 ， 它 也 称 为 Woodbury 等 式 。 
令 A 和 BB 胡 示 由 关系 
A= B2 +CDC7 
定义 的 下 定 矩 阵 ， 其 中 心 和 畔 是 另外 两 个 矩 陈 。 根 据 抵 阵 送 引 理 ， 先 阵 A 的 道 定义 为 
A: = 了 -BCOD+CIBC)-CIB 
对 于 式 (4.11I0) 中 所 还 的 问题 我 们 有 
A=Hm,B: =Ha-l)C=E&n,D=1l 

因此 应 用 手 阵 逆 引 理 得 到 对 于 Hessian 矩阵 求 道 的 递归 计算 公式 : 

1 -1 Hz -DECnErCa)RHIC -1 

Han) = HI(n -1)- 1 Er 四 

注意 式 (4.111) 中 的 分 母 是 一 个 标量 ; 因此 直接 计算 它 的 倒数 。 这 样 ， 给 定 Hessian 挎 阵 的 道 
过 去 的 值 了 (na -1D， 我 们 就 可 以 计算 它 由 谭 量 m) 表 示 的 第 ”个 样本 呈现 后 的 更 新 估 
了 (mn)。 这 个 递归 计算 将 继续 到 W 个 样本 的 整个 集合 被 计算 为 止 。 为 了 初始 化 这 个 算法 我 
们 需要 使 联 : (0) 很 大 ， 因 为 根据 式 (4,111) 它 是 持续 地 减少 的 。 这 个 要 求 可 以 通过 如 下 设 定 
来 满足 ; 





(4.111) 














H2(0)》 = SI (4.142)》 
其 中 必 是 一 个 小 的 正 数 ，I 是 单位 矩阵 。 这 个 初始 化 的 形式 保证 了 (nm) 总 姨 正定 的 。8 的 影 
响 随 着 越 来 越 多 的 样本 出 现在 网 络 中 而 变 得 逐渐 减少 。 
表 4-6 是 脑 外 科 算 法 的 一 个 小 结 (Hassihi and Stork,1992)。 


表 4-6_ 最 优 脑 外 科 算 法 小 结 





1. 训练 给 定 多 层 感知 器 至 景 小 均 方 误 益 . 
2. 利用 4.10 节 所 述 过 程 计 算 问好 
8n) - .LaFCwax(a)) 
一 太 3 
其 中 风 w,x(n)) 是 由 具有 余部 权 值 向 量 吧 的 多 层 感 知 器 实现 的 输入 输出 映射 ，x( ) 是 输入 向 招 。 
3, 利用 递归 公式 (4,111) 计 算 Hessian 抢 阵 的 进 了 
4. 寻找 相应 十 最 小 显著 性 的 
Sa 
其 中 [于 ]i ,是 也 -的 第 (1， 日 个 元 素 ， 如 果 显著 性 8 下 小 于 均 方 思 。， 那 么 删除 突 触 权 值 ww ， 并 且 执行 第 4 步 。 
否则 ， 转 第 5 步 。 
5. 通过 应 用 如 下 调整 以 正 网 络 中 所 有 的 突 触 权 信 : 


= -一 HL 
Ar = -TREETTHTTL 


转 第 2 步 。 
6, 当 不 再 有 权 值 中 以 因为 网 络 中 均 方 误差 没有 大 的 增加 而 被 删除 的 时 候 停 止 计算 。 (也许 期 疤 在 该 点 重新 训练 网 络 .) 








加 ] 
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4.16 反 咎 传播 学 习 的 优点 和 局 限 


反 向 传播 算法 作为 指导 多 层 感知 器 训练 的 最 流行 的 算法 而 出 现 。 基 本 上 ， 它 是 一 个 梯度 
( 生 数 ) 的 技术 而 不是 一 个 最 优化 技术 。 反 向 传播 具有 两 个 明显 的 性 质 ， 

。 局 部 计算 简单 。 

。 它 实现 权 值 空间 的 随机 梯度 下 降 ( 对 于 突 触 权 值 更 新 按 一 个 模型 接 一 个 模型 的 方式 )。 

多 层 感知 器 背景 下 的 反 向 传播 学 习 的 这 两 个 属性 导致 它 的 优点 利 缺 点 。 


连接 机 制 


友 向 传播 算法 是 依靠 局 部 计算 来 发 现 神经 网 络 信息 处 到 能 力 的 一 个 连接 论 者 范例 的 倒 
子 。 计 算 限制 的 这 种 形式 称 为 局 部 约束 ， 它 是 指 单个 神经 元 实现 的 计算 惟一 受 那些 与 它 有 物 
理 接触 的 神经 元 的 影响 。 在 人 工 神经 网 络 的 设计 中 提倡 利用 局 部 计算 有 三 个 主要 的 理由 ， 

1. 实现 局 部 计算 的 人 工 神经 网 络 常常 支持 生物 神经 网 络 的 类 比 。 

2, 局 部 计算 的 使 用 人 允许 极 大 地 减 噶 由 于 硬件 错误 所 导致 的 性 能 下 降 ， 因 此 为 容错 网 络 
设计 提供 基础 。 

3. 局 部 计算 支持 使 用 作为 人 工 神经 网 络 实现 的 有 效 方法 的 并 行 体 系 结 居 。 

按 相 反 的 顺序 来 讨论 这 三 点 ,第 三 点 在 反 向 传播 学 习 中 被 完全 验证 。 特 别 地 ， 反 向 传播 
算法 已 经 被 许多 研究 者 在 并 行 计算 机 上 成 功 地 实现 了 ,并 且 已 经 开发 用 硬件 实现 多 层 感 知 器 
的 VLSI 体系 结构 (Harmmerstrom,1992a,1992b)。 正 如 在 Kerlizin and Vallet(1993) 的 研究 中 所 述 
的 那样 ， 第 二 点 的 验证 可 由 反 向 传播 算法 的 应 用 中 采取 某 些 防范 措施 而 得 到 。 对 于 第 一 点 ， 
和 反 向 传播 学 习 的 生物 伏 嘉 性 有 关 ， 基 于 如 下 理由 它 受 到 严重 的 质疑 (Shepherd,1990bh; Criok， 
1989; Siork, 1989) : 

1 在 一 个 多 层 感知 器 神经 元 之 间 的 双向 窒 触 连接 可 以 假设 权 值 足 兴 售 的 或 者 是 抑制 的 。 
然而 ， 在 真实 的 神经 网 络 系统 中 ， 神 经 元 经 常 表现 为 … 个 或 者 另 一 个 。 这 就 是 在 神经 网 络 模 
型 中 所 作 的 不 真实 的 假设 中 最 严重 的 一 个 。 

2?, 在 一 个 多 层 感知 器 中 ， 忽 略 了 符 尔 蒙 的 和 其 他 类 型 的 全 局 通信 的 类 型 。 人 在 真实 的 神 
经 元 系统 中 ， 这 些 全 局 道 信 对 于 例如 激励 、 注 意 和 学 习 的 状态 设置 功能 是 关键 的 。 

3. 在 反 向 传播 学 习 中 ， 一 个 突 触 权 信 是 通过 一 个 前 突 触 活动 和 一 个 独立 于 后 突 触 活动 
的 误差 (学 习 ) 信 和 号 来 修改 的 。 从 神经 生物 学 证 据 表 明 是 另 一 种 情况 。 

4, 从 神经 生物 学 的 角度 来 看 ， 反 向 传播 学 习 的 实现 要 求 信息 沿 郑 轴 突 迅速 地 反 向 传播 。 
在 脑 中 实际 发 生 的 这 样 操作 看 起 来 简直 是 不 可 能 的 。 

5. 反 向 传播 学 习 意 味 着 一 个 “教师 "的 存在 ， 这 在 脑 中 将 假设 存在 一 个 具有 特殊 性 质 的 
神经 元 集合 。 这 样 的 神经 元 的 存在 在 生物 学 上 是 难以 转 信 的 。 

然而 ， 这 些 神经 生物 学 上 的 疑 庶 并 没有 减少 反 向 传播 学 习作 为 信息 处 理 的 一 个 工具 在 工 
程 上 的 重要 性 ， 这 通过 它 在 无 数 大 不 相同 的 领域 中 的 成 荔 应 用 得 到 了 证 明 ， 其 中 包括 神经 生 
物 现象 的 仿真 在 内 (例如 ， 见 Robinson(1992) )。 


特征 检测 
正如 4.9 节 所 讨论 的 那样 ， 通 过 反 向 传播 算法 训练 的 多 层 感知 器 的 隐藏 神经 元 作为 特征 
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检测 器 扮演 着 重要 的 角色 。 利 用 多 层 感知 器 的 这 个 重要 性 质 的 一 个 新 方法 是 使 用 它 作为 复制 
器 或 者 恒 等 映 射 ( Rumelhar et al , ,1986b; Cottrel et al. ,1987 )。 图 4-23 表明 对 于 使 用 单个 隐藏 
层 的 多 层 感 知 器 情况 下 这 是 如 何 完成 的 。 网 络 构 形 满足 刀 下 的 结构 要 求 ， 正 如 图 4- 23a 表明 












































的 那样 : 
。 输 人 利和 给 出 层 神经 抑 数 目 具 有 相同 的 大 小 严 。 
。 隐藏 层 的 神经 元 个 数 好 小 于 m 严 。 
"” 网 络 是 完全 连接 的 。 











输入 信号 输入 俏 叶 的 估计 人 驳 
开 
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图 4-23 
a 具 有 一 个 隐藏 层 的 作为 编码 器 的 复制 器 网 络 ( 重 等 吴 射 ) b) 复 制 网 络 
监督 训练 的 方 框 图 “作为 解码 器 的 复制 器 网 络 部 分 


一 个 给 定 的 模式 同时 作为 输入 层 的 刺激 和 输出 层 的 期 望 响 应 。 输 出 层 的 实际 响应 六 是 
打算 用 作 区 的 “估计 "。 通 过 常用 的 方法 使 用 反 向 传播 算法 训练 网 络 ， 估 计 误差 向 量 (x -多 ) 作 
为 误差 信号 处 理 ， 如 图 4-23b 所 示 。 这 个 训练 是 在 无 监督 情形 下 完成 的 ( 即 不 需要 教师 )。 借 
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助 多 层 感知 器 的 设计 所 建立 的 特殊 结构 优点 ， 通 过 它 的 隐藏 层 约束 网 络 以 实现 恒 等 映 射 。 输 
人 模式 的 -~ 个 编码 形式 ， 用 。 表示 ， 它 是 在 隐藏 层 的 输出 中 产生 的 ， 如 图 4- 23a 所 示 。 事 实 
上 ， 完 全 训练 的 多 层 感 知 器 充当 着 "编码 器 "的 角色 。 为 了 重 构 初始 输入 模式 x 的 估计 让 即 
实现 解码 ) ， 我 们 将 编码 信号 应 用 于 复制 回 网 络 隐藏 层 ， 如 图 4-23c 所 示 。 事 实 上 上 ， 后 面 的 
网 络 扮演 “ 解 权 器 "的 角色 。 如 果 我 们 使 得 隐藏 层 的 大 小 双 ! 与 输入 /输出 层 天 小 mm 相 比 越 小 ， 
那么 图 4- 23a 的 结构 作为 - -个 数据 压缩 系统 的 作用 就 越 大 叫 - 。 
函数 远近 

通过 反 向 传播 算法 训练 的 多 尾 感 知 器 自身 表明 是 .个 赋 穴 sigmeid 画 数 ， 在 单个 输出 的 
情形 下 用 紧凑 形式 写 为 

FGxw) = g ee Ze9( 9 wx 力 )) 《4.113) 

其 中 PC ) 是 常用 sigmoid 激活 两 数 ， 心 ,是 从 最 后 一 个 隐藏 层 的 神经 经 元 # 到 单个 输出 神经 元 o 
的 资 触 权 值 ， 依 此 类 扒 得 到 其 他 突 触 权 值 ，x* 是 输入 向 量 x 的 第 ;个 元 素 。 权 值 向 量 w 表 
示 突 触 权 信 的 完整 集合 ， 其 排列 顺 这 首 先 按 居 ， 然 后 技 每 层 中 的 神经 元 ， 最 后 按 神经 元 中 的 
突 触 。 式 (4. 119) 中 庶 人 于 上 作 数 的 设计 在 经 通 近 沦 中 是 不 常见 的 。 正 如 4.13 节 讨 论 的 
它 是 一 个 通用 逼近 器 。 

在 通 近 背景 下 ， 使 用 反 肉 优 播 学 习 提 供 另 . -个 有 用 的 性 质 。 直 觉 的 知识 暗示 具有 光滑 激 
活 示 数 的 多 层 感知 器 的 输出 嘎 数 的 导数 应 该 同样 道 近 未 知 输入 ~ 输出 映射 的 导数 。 在 Hom 引 k 
at al,(1990) 中 介绍 了 这 个 结果 的 证 明 。 实 际 上 ，, 证 明 多 层 感知 器 能 通 近 传统 意义 下 不 可 微 的 
函数 ， 但 拥 右 像 在 分 段 可 微 冰 数 情形 下 的 广义 导数 的 函数 。Hornik 等 人 报告 的 逼近 结果 提供 
了 以 前 利用 多 层 感知 器 通 近 一 个 函数 和 它 的 导数 所 缺少 的 理论 根据 。 


计算 的 效率 


算法 的 计算 复杂 度 通常 是 用 乘法 、 加 法 的 次 数 和 它 的 实现 所 涉及 的 存储 量 来 衡量 的 ， 如 
第 2 章 所 讨论 的 那样 。 一 个 学 习 算法 从 -- 次 迭代 到 下 一 次 选 代 ， 兰 它 计算 复杂 度 更 新 的 可 调 
整 参数 的 数目 是 多 项 式 的 ， 我 们 就 说 这 个 算法 是 计算 有 效 的 。 在 这 个 基础 上 ， 它 也 可 以 说 是 
反 向 传播 算法 是 计算 有 效 的 。 特 别 地 ， 在 使 用 它 进行 包含 全 部 的 突 触 权 值 允 ( 包 括 偏 置 ) 的 
多 层 感 向 吕 的 训练 中 ， 它 的 计算 复杂 度 在 丈 中 是 线性 的 。 反 向 传播 算法 的 这 个 重要 性 质 可 
以 通过 检查 如 4.5 节 所 述 的 完成 前 向 通过 和 反 向 通过 所 涉及 的 计算 而 容易 得 到 证 明 。 在 前 向 
通过 中 ,计算 涉及 的 突 触 权 值 是 那些 网 络 中 不 同 神经 元 的 诱导 局 部 域 所 属 的 权 值 。 这 时 我 们 
从 式 (4-44) 看 到 这 些 计算 对 网 络 的 突 触 权 值 是 线性 的 。 在 反 向 通过 中 ， 涉 及 突 触 权 值 的 仅 有 
的 计算 是 那些 分 别 申 式 (4.46) 和 (4.47) 所 述 的 属于 (1) 降 藏 神经 元 的 局 部 佛 度 ， 和 (2) 突 触 权 
值 自身 的 更 新 。 在 这 里 我 们 同样 可 以 看 到 这 些 计算 对 网 络 的 突 触 权 值 全 部 是 线性 的 。 因 此 得 
出 结论 ， 反 向 传播 算法 的 计算 复杂 度 对 多 足 线性 的 ， 即 它 是 O(W)。 


灵敏 度 分 析 


从 使 用 反 向 传播 学 习 中 得 到 的 另 一 个 计算 上 的 好 处 是 它 提供 一 个 有 效 的 方法 ， 通 过 它 我 
们 可 以 进行 由 这 个 算法 实现 的 输入 输出 映射 的 灵敏 度 分 析 。 输 入 输出 映射 函数 中 关于 一 个 
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参数 的 灵 禾 度 ， 以 由 表示 ， 定 义 为 
3 


ou 
然后 考虑 一 个 经 过 反 疝 传播 算法 训练 的 多 层 感知 器 。 令 函数 (w) 为 网 络 实现 的 输入 输出 观 
射 ; ww 表示 网 络 中 包含 的 所 有 突 触 权 俏 (包括 仿冒 ) 向 量 。 在 4. 10 节 中 我 们 证 明了 晒 数 Fw) 
对 权 值 向 量 w 中 所 有 元 素 的 偏 导 妆 是 可 以 进行 有 效 计算 的 。 具 体 地 ， 检 查 式 (4.81) 、(4.83) 
和 式 (4.114)， 我 们 知道 这 些 偏 导数 计算 涉及 的 复杂 件 对 网 络 包含 权 值 的 总 数 罗 是 线性 的 。 
这 种 线性 关系 与 问题 的 突 触 权 值 在 计算 链 中 出 现 的 位 置 无 关 。 


和 鲁 棒 性 


在 第 3 章 中 我 们 指出 ，LMS 算法 中 能 量 小 的 扰动 只 会 引起 小 的 估计 肖 差 ， 从 这 个 角度 来 
看 它 是 鲁 棒 的 。 如 果 固 有 的 观察 模型 是 线性 的 ，LMS 算法 是 一 个 " 最 优 让 波 器 (Hassibi et 
al. ,1993,1996)。 这 意 昧 着 LMS 算法 最 小 化 由 估计 误差 的 扰动 带 来 的 最 大 能 量 增益 。 

从 另 一 方面 来 看 ， 如 果 回 有 的 观察 模型 是 非 线性 的 ，Hassibi 和 Kailath(1995) 证 明 反 向 传 
播 算法 是 局 部 咯 " 最 优 浅 波 器 。 这 里 使 用 的 “局 部 ”术语 是 指 反 向 传播 算法 中 使 用 的 公 值 向 量 
初始 值 充分 车 近 权 值 向 量 的 最 优 值 w” 以 依 保 该 算法 不 陷 人 一 个 坏 的 局 部 最 小 中 。 用 概念 性 
的 说 法 ， 看 到 LMS 和 反 向 传播 算法 属于 同一 类 型 的 吾 " 最 优 滤波 器 是 令 人 满意 的 。 


收 和 伍 性 


反 向 传播 算法 在 权 值 空间 中 对 于 误差 时 面 上 的 梯度 使 用 “ 阴 时 全 计 ”。 因 此 该 算法 在 本 质 
上 是 随机 的 ， 也 就 是 说 ， 它 在 误差 蝶 面 上 具有 通过 在 真实 方向 附近 的 锻 齿 形 路 线 趋 于 最 小 点 
的 倾向 。 其 实 ， 反 向 传播 学 习 是 最 初 由 Robbins 和 Monm{(1951) 提 出 的 所 请 随机 台 近 的 统计 学 
方法 的 一 个 应 用 。 因 此 ， 它 倾向 于 缓慢 收敛 。 我 们 可 以 验 明 这 个 性 质 的 两 个 基本 原因 
《Jacobs ,1988) : 

上 误差 曲面 沿 着 一 个 权 值 方向 是 相当 平坦 的 ， 这 意味 着 误差 曲面 对 这 个 权 值 的 导数 在 
数量 上 是 很 小 的 。 在 这 样 的 情况 下 ， 应 用 于 这 个 权 值 的 调整 是 很 小 的 ， 因 此 在 网 络 误差 性 能 
上 产生 重大 的 降低 可 能 要 求 这 个 算法 的 多 次 选 代 。 或 另 一 方面 ， 误 差 则 面 沿 着 一 个 权 值 方向 
是 高 度 弯 则 的， 在 这 种 情形 下 误差 曲面 对 该 可 值 的 导数 在 数量 上 是 很 大 的 。 在 这 第 二 种 情况 
下 ， 应 用 于 该 权 值 的 调整 是 很 大 的 ， 这 可 能 会 导致 该 算法 越过 误差 曲面 的 最 小 点 。 

2. 负 樟 度 向 量 的 方向 ( 即 代 价 函 数 对 权 值 向 量 的 负 导 数 ) 可 能 指向 远离 误 羡 曲面 的 最 小 
值 : 内 此 应 用 于 权 什 的 调整 可 能 导致 算法 往 错误 的 方向 进行 。 

因此 ， 反 向 传播 学 习 的 收敛 速度 倾向 于 相当 缓慢 ， 这 可 能 使 得 计算 起 来 非常 困难 。 根 据 
Saarinen et al. (1992) 的 实验 研究 ， 反 向 传播 算法 的 局 部 收敛 速度 是 线性 的 ， 这 通过 Jacobi 矩 
阵 和 Hessian 矩阵 几乎 是 秩 气 损 的 面 得 色 让 明 。 这 些 者 是 神经 网 络 训练 问题 加 有 的 病态 性 的 
结果 。Saarinen 等 人 用 两 种 方法 之 一 解释 反 向 传播 学 习 的 线 狂 局 部 收敛 速度 ， 

， 较 高 阶 的 方法 要 求 更 多 的 计算 晤 未 必 收 敛 得 更 快 ， 在 这 个 意义 上 反 向 传播 (梯度 下 

降 ) 是 可 接受 的 ; 
。 大 规模 神经 网 络 的 训练 问题 的 实施 有 如 此 大 的 固有 困难 以 至 于 没有 任何 监督 学 习 的 
策略 是 可 行 的 ， 而 使 用 如 像 预 处理 的 其 他 方法 可 能 是 必需 的 。 





SS = 《4.114)》 
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764 之 4 责 





在 4.17 节 中 我 们 更 全 面 地 探讨 收 生 问 题 ， 并 且 在 第 8 章 中 探讨 输入 的 预 处 理 问题 。 
局 部 最 小 值 


对 反 向 传播 算法 性 能 造成 影响 的 误差 曲面 的 另 一 个 特点 是 除了 全 局 最 小 值 之 外 的 局 部 最 
小 值 ( 即 弧 立 四 模 ) 的 出 现 。 由 于 反 向 传播 学 习 基 本 上 是 一 个 怜 下 技术 ， 因 此 它 存在 陷 人 局 部 
最 小 值 的 危险 ， 此 处 突 触 权 值 的 每 个 微小 变化 都 引起 代价 菌 数 的 增长 。 但 在 权 值 空间 的 别 的 
某 个 地 方 存在 另外 一 个 突 触 权 值 的 集合 ， 它 的 代价 函数 的 值 比 在 网 络 被 停止 处 的 局 部 最 小 值 
更 小 ; 很 明显 不 希望 使 学 习 进 程 在 局 部 最 小 值 处 停止 ， 特 别 是 如 果 它 是 处 于 离 全 局 最 小 值 很 
远 的 话 。 
反 向 传播 学 习 中 局 部 最 小 值 的 问题 在 Minsky and Paper(1988) 经 典 著作 的 扩充 版 本 的 结 
语 中 被 提 了 出 来 ， 结 语 的 绝 大 部 分 注意 力 都 集中 讨论 分 为 两 册 的 Rumelhart 和 McCleland 
{1986) 蔷 作 ;， 《Poralleg Pistriialed Pocesing》。 在 这 本 书 的 第 8 章 中 声称 对 于 反 向 传播 学 习 来 
说 ， 陷 人 一 个 局 部 最 小 值 在 一 个 实际 问题 中 是 罕见 的 。Minsky 和 Papert 通过 指出 模式 识别 整 
个 历史 过 程 的 相反 表现 进行 反 鸡 。Gori 和 Tesi(1992) 撕 述 一 个 简单 的 例子 ， 尽 管 模式 中 一 个 
非 线性 的 可 分 集合 能 够 通过 选择 具有 单个 隐藏 层 的 网 络 进行 学 习 ， 但 是 反 间 传播 学 习 还 是 可 
能 在 一 个 局 部 最 小 值 处 停止 。 


规模 


在 原则 上 ， 诸 如 由 反 向 传播 算法 训练 的 多 层 感 知 器 之 类 的 神经 网 络 提供 通用 计算 机 器 的 
法 在 可 能 。 然 而 ， 想 充 分 实现 这 种 潜能 ， 我 们 必须 克服 规模 (sealing) 问 题 ， 它 是 指 随 计算 任 
务 在 天 小 和 复杂 性 上 的 增加 网 络 表现 的 优 劣 (如 由 训练 所 需 时 间 和 可 得 到 的 最 优 泛 化 性 能 来 
衡量 ) 的 问题 。 在 度量 计算 任务 大 小 和 复杂 度 的 许多 可 能 的 办 法 中 ， 由 Winaky 和 Papert 
(1969，1988) 定 义 的 谓词 阶 (predicate onder) 提 供 了 最 有 用 和 最 重 查 的 标准 。 

为 了 解释 一 个 调 词 意味 着 什么 ， 令 (X) 表 示 一 个 只 能 有 两 个 取 值 的 函数 。 通 常 我 们 取 
可 如 的 两 个 值 为 0 和 1。 但 通过 取 值 为 假 (FALSE) 或 真 (TRUE) ， 可 以 认为 本 (X) 是 一 个 请 
词 ， 即 一 个 可 变 的 陈述 ， 其 真 和 假 依 壤 于 变量 了 的 选择 。 例 如 ， 我 们 可 以 写 出 

1 。 荐 图 形式 是 一 个 

eezGD = {o。 着 了 入 X 不 是 -个 

使 用 调 词 的 思想 ，Tosauro and janssens(1988) 实 现 了 一 个 涉及 使 用 由 反 向 传播 算法 训练 的 多 层 
感知 器 来 学 习 计算 奇偶 函数 的 实验 研究 。 奇 个 函数 是 定义 如 下 的 布尔 调 词 ; 

1 车 1 了 1 是 奇数 
wm00 -人 到 

它 的 阶 数 等 于 输入 的 不 数 。Tesaur and Janssens 进行 的 这 个 实验 显示 ， 网 络 学 习 计算 奇 个 郴 
数 所 需 的 时 间 与 输入 个 数 ( 即 计算 的 谓词 阶 数 ) 星 指数 关系 ， 并 且 使 用 反 向 传播 算法 学 习 任 意 
复杂 的 函数 的 计划 可 能 是 过 分 乐观 的 。 

一 般 认为 对 一 个 多 层 感 知 器 进行 完全 连接 是 失策 的 。 因 此， 在 此 背 晤 下， 我 们 可 以 提出 
如 下 问题 : 给 定 一 个 不 应 被 完全 连接 的 多 层 感知 器 ， 网 络 的 突 甬 连接 将 如 何 分 配 ? 这 个 问题 
在 小 规模 的 应 用 情况 并 不 是 主要 考虑 的 问题 ， 但 它 对 利用 反 疝 传播 学 习 解 决 更 实 世 界 中 大 规 
模 的 问题 的 成 功 应 用 是 至 关 重 要 的 。 
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区 765 





减轻 规模 问题 的 一 个 有 效 办 法 是 发 展 对 当前 问题 的 认识 (可 能 是 通过 神 终生 物 学 的 类 比 ) 
并 利用 它 增 加 多 层 感 币 器 体系 结构 设计 的 灵活 性 。 特 别 地 ， 网 络 体系 结构 和 加 于 网 络 帘 触 权 
值 上 的 约束 应 该 这 样 设 计 使 得 关于 伍 务 的 先 验 知识 合并 到 网 络 的 组 成 中 去 。 这 种 设计 策略 在 
4.19 节 中 在 关于 光学 字符 识 草 的 问题 中 说 明 。 


4.47 反 向 传播 学 习 的 加 速 收 和 伍 


在 前 一 节 中 阐明 了 反 向 传播 算法 收 伍 速率 可 能 缓慢 的 主要 原因 。 本 节 我 们 讨论 -` 些 得 到 
的 启发 ， 它 们 为 思考 如 何 通过 学 习 率 的 调整 以 朋 速 反 向 传播 学 习 的 收 伍 提供 有 用 的 方针 。 具 
体 的 启发 如 下 (Jacobs ,1988) : 

启发 1 代价 函数 的 每 一 个 可 油 整 网 络 参 数 都 应 具有 自己 的 学 习 率 参数 ， 

在 这 里 我 们 注意 反 向 传播 算法 可 能 缓慢 地 收敛 是 因为 使 用 固定 的 学 习 率 参数 不 能 适合 于 
误差 曲面 地 每 一 部 分 。 换 句 话 说， 一 个 突 触 公 值 调节 的 适 家 的 学 习 率 参数 是 不 必 适 宜 于 网 络 
中 其 他 罕 触 权 值 的 调节 的 。 雇 发 通过 为 网 络 中 每 个 可 调节 的 突击 权 值 (人 参数) 指定 木 同 的 学 
习 率 参数 认 知 这 个 事实 。 

启发 2 每 一 个 学 飞 参数 都 应 该 被 允许 在 每 次 迭代 中 取 不 同 的 值 。 

沼 着 单个 权 值 维 的 不 同 区 域 ， 误 益 曲 面 通常 有 不 同 的 行为 。 为 了 适应 这 种 变化 ,启发 2 
规 定 学 习 参 数 在 每 次 选 代 中 不 同 。 有 趣 的 是 ， 这 个 启发 在 线性 单元 的 情形 中 被 明确 地 建立 
(Luo,1991 )。 

启发 3 当代 价 函 数 对 一 个 突 触 权 值 的 导数 在 算法 中 几 次 连续 迁 代 具有 相同 的 代数 符号 
的 时 候 ， 这 个 特殊 权 值 的 学 习 率 参数 应 该 被 增加 。 

在 权 值 空 间 中 当前 运行 点 所 处 误差 曲面 沿 一 个 特别 的 权 值 维 可 能 是 相 当 平坦 的 部 分 。 这 
可 以 导致 代价 函数 关于 要 值 的 导数 ( 即 误差 时 面 的 梯度 ) 在 连续 几 次 算法 迭代 中 保持 相同 代数 
符号 ， 因 此 指向 相同 的 方向 。 启 发 3 规定 在 这 样 的 情形 下 可 以 通过 适当 增加 学 习 率 参数 来 减 
少 通 过 误差 曲面 的 平坦 部 分 所 需 的 选 代 次 数 。 

启发 4 当代 价 函 数 对 个 别 突 触 权 值 的 导数 的 代数 符号 对 于 连续 几 议 算法 选 代 发 生 改 变 
的 时 候 ， 该 权 什 的 学 习 率 参数 应 该 减少 。 

当 在 权 值 空间 中 当前 运行 的 点 所 位 于 误 养 则 面 的 部 分 沿 所 讨论 的 权 值 维 呈 现 峰 值 和 深谷 
《 即 曲面 高 度 弯曲 ) 的 时 候 ， 代 价 函 数 对 该 权 值 的 导数 在 这 次 迭代 到 下 次 迭代 时 政变 它 的 符号 是 
可 能 的 。 为 了 防止 权 值 调节 出 现 振 落 ， 启 发 4 规定 该 特殊 权 人 的 学 习 率 参数 应 该 适当 地 减少 。 

值得 注意 的 是 ， 根 据 这 些 启发 对 每 个 突 触 权 值 使 用 不 同 的 和 随时 间 变 化 的 学 习 率 参数 ， 
从 基本 上 改变 了 反 向 传播 算法 。 特 别 地 ， 被 修改 后 的 算法 不 再 进行 最 陡 下 降 方向 的 搜索 。 更 
准确 地 说 ， 应 用 于 突 触 权 值 的 调整 是 基于 (1) 误 差 曲面 对 权 值 的 偏 导数 ， 和 (2) 在 权 值 空间 当 
前 运行 点 上 误差 曲面 在 沿 不 同色 值 维 的 曲率 估计 。 

此 外 ， 所 有 4 个 启发 都 满足 局 部 约束 ， 这 是 反 向 传播 学 习 的 固有 特征 。 不 幸 的 是 ， 对 局 
部 约束 的 坚持 限制 了 这 些 启发 的 领域 ， 因 为 存在 它们 不 能 工作 的 误差 曲面 。 然 而 ， 根 据 这 些 
启发 对 反 向 传播 算法 的 修改 确实 具有 实用 价值 '” 。 


4.18 作为 最 优化 问题 看 待 的 有 监督 学 习 
在 本 节 用 一 种 与 前 面 几 节 讨论 有 很 大 不 同 的 关于 有 监督 学 习 的 观点 。 特 别 地 。 我们 把 多 
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766 朝 了 民 





层 感 知 器 的 监督 训练 看 作 是 一 个 数值 最 优化 问题 ， 在 这 个 背景 下 我 们 首先 指出 使 用 有 监督 学 
习 的 多 层 感 知 器 的 误差 曲面 是 突 触 权 值 向 量 w 的 高 度 非 线性 函数 。 令 %..(w) 表 未 在 训练 样本 
上 平均 的 代价 函数 。 使 用 Tayler 级 数 在 误差 曲面 当前 点 w( mn) 附 近 我 们 可 以 展开 &.(w)， 例 
如 ， 如 式 (4.100) 所 撕 述 的 ， 这 里 重 写 为 依赖 于 = 的 形式 ; 
轨 CwW(CP) + AwLn)) = 吕 CCw(n)) +g Cn)Aw(n) + 去 AwrCn)HCaAw(m) 
+ 二 次 和 更 高 次 项 ) (4.117) 

其 中 芭 m) 是 局 部 梯度 向 量 ， 定 义 为 

SCn) = 
Hz) 是 局 部 Hessian 扼 阵 ， 定 义 为 

HK(n) = 
人 有人 平均 代 从 天) 代 区 学 。 


在 以 反 向 传播 算法 为 例 的 最 耳 下 降 方向 方法 中 ,应 用 于 突 触 权 值 向 量 mw(n) 的 调节 量 
Am(m) 定 义 为 









































9 思 ( 骨 ) 


六 (4.118) 





人 


一 多 人 (4.119) 





人 


Amfn) =- 人 (m) (4.120) 
其 中 1 为 学 习 率 参 数 。 事 实 上 ， 最 陡 下 降 方向 方法 是 在 运行 点 w(m) 局 部 邻 域 对 代价 函数 的 线 
性 逼近 基础 上 进行 计算 的 。 在 这 样 的 处 理 中 ， 它 依赖 梯度 向 量 g( m) 作 为 关于 误差 曲面 局 部 信 
息 的 惟一 来 源 。 这 个 限制 具有 一 个 有 利 的 效果 :; 实现 的 简单 性 。 不 幸 的 是 ， 它 问 样 具有 一 个 不 
利 的 影响 ;缓慢 的 收敛 速度 ， 特 别 巧 在 大 规模 问题 的 情形 下 这 是 令 人 烦恼 的 。 在 权 值 更 新 的 公 
式 中 包含 动量 项 是 使 用 误差 曲面 二 阶 信息 的 大 胆 尝 试 ， 这 是 具有 某 些 帮 助 的 。 然 而 ， 由 于 在 必 
须 由 设计 者 “调整 "的 参数 列表 中 增加 一 项 ， 它 的 使 用 使 得 训练 过 程 的 管理 更 费时 间 。 

为 了 使 多 层 感知 器 的 收 伍 性 能 有 显著 的 改善 (与 反 向 传播 学 习 相 比 )}， 必 须 使 用 训练 过 程 
的 高 阶 信息 。 我 们 可 以 通过 调用 误差 曲面 在 当前 点 w(m) 周 围 的 二 次 表 近 来 实现 。 然 后 从 式 
《4,.117) 可 以 发 现 应 用 于 突 触 权 值 向 量 w(=) 的 调整 量 的 最 优 值 Aw( ms) 由 下 式 给 出 

Aw" (nm) = Hz)g(n) 《4,121) 
其 中 了 (za) 是 Hessian 矩阵 H(m) 的 道 ， 假 设 它 是 存在 的 。 式 (4.121) 是 Newton 方法 的 核心 。 
如 果 代 价 函 数 g。(w) 是 二 次 的 ( 即 式 (4.117) 中 的 三 次 和 更 高 次 项 为 零 ) ， 那 么 Newton 方法 一 
次 选 代 后 收 生 到 最 优 值 位 置 。 然 而 ，Newton 方法 对 多 层 感 知 器 的 有 监督 训练 的 实际 应 用 受到 
如 下 因素 的 阻碍 ， 
。 它 要 求 计算 Hessian 撼 阵 的 道 H-:(a)， 这 可 能 在 计算 上 是 郧 贵 的 。 
* 为 了 使 也 (=) 是 可 计算 的 ，H(n) 必 须 是 非 奇 异 的 。 在 再 (nz ) 为 正定 的 情况 下 ， 当 
前 点 w(n) 周 轴 的 误差 曲面 可 以 担 述 为 " 凸 剖 状 "”。 不 幸 的 是 ， 并 不 能 保证 多 层 感 知 
器 误差 曲面 的 Hessian 抢 阵 总 是 符合 这 样 的 描述 。 而 且 ， 还 有 Hessian 气 阵 秩 亏 损 的 
洪 在 问题 ( 即 并 不 是 所 有 的 再 的 列 都 线性 无 关 ) ， 这 是 由 于 网 络 训练 问题 中 固有 的 病 
态 性 所 造成 的 (Saarinen et aj,,1992 ); 这 只 会 使 得 计算 任务 更 加 困难 。 

。 当代 价 函 数 8。(w) 是 非 二 次 的 时 候 ，Newton 方法 的 收敛 性 得 不 到 保证 ， 这 使 得 它 不 

适合 于 训练 多 层 感知 器 。 
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为 了 点 服 其 中 某 些 困难 ， 我 们 可 以 使 用 拟 Newton 方法 ， 它 仅仅 要 求 樟 度 向 量 中 的 一 个 估计 
和 值 。 这 种 Newton 方法 的 修正 不 经 过 计算 矩阵 的 道 员 直 接 得 到 道 矩 阵 了 保持 正定 的 估计 。 
通过 使 用 这 样 的 估计 ， 拟 Newton 方法 保证 在 误差 曲面 上 是 下 降 的 。 然 而 ， 我 们 仍然 有 一 个 
0 本 ) 的 计算 复杂 性 ， 其 中 丈 是 权 值 问 量 w 的 大 小 。 央 此 拟 Newton 方法 在 计算 上 是 不 切实 
际 的 ， 除 非 对 一 个 非常 小 规模 的 神经 网 络 进行 训练 。 关 于 拟 Newion 方法 的 讨论 将 在 本 节 后 
面 给 出 。 

另 一 类 型 的 一 阶 最 优化 方法 包括 共 鲍 梯度 方法 ， 它 被 认为 是 一 种 介 于 最 陡 实 度 方 法 和 
Newton 方法 之 间 的 方法 。 使 用 共 罗 梯 度 方法 的 动机 是 期 望 如 速 在 最 陡 梯 度 方法 中 经 访 的 特别 
缓 介 的 收敛 速度 ， 回 时 避免 在 Newton 方法 中 要 求 对 Hessian 矩阵 的 估 值 、 存 储 和 求 着。 在 二 
次 最 优化 方法 中 ， 广 为 人 知 的 是 共 辆 梯度 方法 也 许 是 可 用 于 大 规模 问题 的 惟一 方法 ,大 规模 
问题 就 是 具有 几 百 个 或 几 千 个 可 调整 参数 的 问题 (Fletcher, 1987 )。 因 此 它 非 常 适 合 于 训练 多 
层 感知 器 ， 典 型 的 应 用 包括 函数 遂 近 、 控 制 和 时 间 序 列 分 析 ( 即 回归 分 析 )。 


共 扼 梯度 方法 


共 扼 习 度 方法 属于 人 所 共 知 的 共 扼 方向 方法 的 二 阶 基 优化 方法 的 一 类 。 我 们 通过 考虑 二 
次 函数 



























































ALx) = 二 srAx -brx+e (4.122) 


的 最 小 化 来 开始 这 些 方法 的 讨论 ， 其 中 x 是 一 个 不 x 1 参数 向 量 ，A 是 四 x 刺 对 称 正 定 抢 
如 ,，b 是 刺 x1 向 量 ，*e 是 标量 。 二 次 函数 所 x) 的 最 小 化 是 通过 眠 予 x 如 下 惟一 值得 到 的 ， 
x” = Ab (4.123) 
这 样 无 z) 的 最 小 化 和 求解 方程 A&x” = b 的 线性 系统 就 是 等 价 问题 。 
给 定 矩 阵 A， 如 果 下 述 条 件 满 足 ， 我 们 称 非 零 向 景 s(0) ，s(1) ，…，s( 刺 - 蕊 的 集合 是 
人 &- 共 扼 的 ( 即 在 矩阵 A 下 互 不 于 扰 ) : 
Sn)As(/) =0 所 有 nm 产 《4.124)》 
如 果 A 等 于 单位 矩阵 ， 共 辑 就 等 加 于 通常 的 正 交 性 概念 。 
例 4.1 为 了 解释 A - 共 雹 向 量 ， 考 虑 图 4- 24a 所 示 属 于 二 维 问题 的 情形 。 图 中 所 示 稀 
圆 轨迹 对 应 于 方程 (4.122) 在 关 三 
K = [xoyxl] 
对 二 次 函数 几 z) 指 定 某 个 常数 值 
的 图 形 ， 图 4-24a 也 包括 -~ 对 关于 未 
夭 阵 A 共 罗 的 方向 向 量 。 人 很 定 我 
们 通过 变换 


本 ( 9 加 0 加 
义 一 个 新 的 与 x 相关 的 参数 向 -| 


量 v， 其 中 人 "是 扩 的 平方 根 。 这 
样 图 4-24a 中 枯 圆 轨迹 就 被 变换 为 日 

图 4-24b 所 示 的 图 形 轨迹 ， 图 4- 图 4-24 A- 共 板 向 是 解释 

24a 中 人 A- 共 乞 的 方向 向 量 对 也 被 ) 二 维权 值 空间 的 精 圆 坑 迹 “b) 精 圆 轨 迹 到 贺 形 轨迹 的 变换 
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转换 为 图 4-24b 中 的 一 对 正 交 方向 向 直 。 国 
关于 A - 其 印 向 量 的 一 个 重要 性 质 是 它们 是 线性 无 关 的 。 我 们 可 以 用 反 汪 法 证 明 这 个 性 
质 。 令 这 些 向 量 的 其 中 之 一 ， 比 如 s(0)， 用 其 余 不 - 1 个 向 量 的 线性 组 合 表示 如 下 : 


s(0) = os() 
两 边 乘 以 A 并 用 s(0) 利 As(0) 作 内 积 得 到 
sT(0)As(0) = 总 osr(o)As() = 0 


然而 ， 有 两 个 原 内 使 得 一 次 型 8 (0)4As(0) 不 可 能 为 零 ; 乍 阵 A 是 被 假设 为 正定 的 ， 向 量 s(0) 
定义 为 非 零 。 因 此 可 以 得 出 义 - 共 罗 的 向 最 s(0》，s(1)，…，8( 再- 1) 不 能 是 线性 相关 的 ; 
也 就 是 ， 它 们 必须 是 线性 无 关 的 。 

对 于 给 定 一 个 A- 共和 的 向 量 s(0)，s(1)，…，s( 币 -1) 的 集合 ， 相 应 的 二 次 误差 函数 
有 尺 好) 的 无 约束 最 优化 共 百 方向 方法 定义 为 (Tuenberger, 1973;Fleleher,1987; Berlsekas,1995) 









































Xml1) = Ka) + 人 杂 Im)s(m)， 下 =01… 且 -] 《4.125) 
其 中 x0) 是 任意 的 开始 向 最 ， 从 nm 是 由 
Rn) + 从 ns(z)) = minoFx(n) +Ts(Cn)) 《4.126) 


定义 的 标量 。 通 过 选择 对 某 个 固定 的 寻找 使 页 数 Fx(m) + 侣 (2)) 最 小 化 的 过 程 称 为 线 
搜索 ， 这 表示 一 维 最 小 化 问题 。 

很 据 式 (4.124)，(4.125) 和 (4.126)， 我 们 提供 如 下 观察 结果 ， 

1. 由 于 人 叉 - 花 的 向 量 s(0) ，s(1) ，…，%( 且 -1) 线 性 无 关 ， 它 们 组 成 w 的 向 量 空间 的 
一 组 基 。 
2, 更 新 公式 (4.125) 和 式 (4.126) 的 线 最 小 化 导出 学 习 率 参数 相同 的 公式 ， 即 








SCn)As(P) 国 
说 mn) = 一 srtnyAs(ny， = 101 有 -1] 《4.127) 
其 中 Cn) 是 误差 向 量 ， 定 义 为 
BCm) = 克 (PE) 一 和 《4.128) 


3. 从 任意 一 个 点 必 0) 出 发 ， 共 令 方 向 方法 确保 能 在 最 多 和 迭代 下 次 中 找到 二 次 函数 Fx) 
的 最 优 解 x 。 

共 生 方 向 方法 的 主要 性 质 描述 为 (Luenberger, 1984; Fleteher, 1987; Bertsekas , 1995) 

在 连续 的 选 代 中 ， 共 上 方 向 方法 在 逐渐 扩张 的 线性 向 量 空间 上 最 小 化 二 次 表 数 F(x)， 
最 终 包含 拟 x) 的 全 局 最 小 值 。 
特别 地 ， 对 于 每 次 只 代 =， 迁 代 结果 x(m + 虽 在 通过 某 个 任意 点 x0) 并 用 由 入- 共 和 的 向 量 
s(0)，s(1)，…，s(na) 扩 展 成 的 线性 向 量 空间 @, 上 使 函数 Fx) 最 小 化 ， 表 示 为 











X(a +1) = arg mn 习 ) (4.129) 
下 凶 ， 
其 中 空间 2@, 定义 为 
印 ， = {x(Ca) 1x(m) = x(0) + 立交 Ds0D] (4.130) 


为 了 使 苍 方向 方法 起 作用 ， 我 们 要 求 具备 一 个 A- 花 的 向 量 S(0)，s(1)，…， 
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s( 多 -]) 的 集合 可 用 。 在 这 种 方法 的 一 种 称 为 共 到 梯 度 方法 “的 特殊 形式 中 ， 随 着 这 个 方法 
逐步 进行 二 次 函数 妃 x) 相 继 的 梯度 向 基 的 入 - 共生 形 式 产 生根 继 的 方向 向 量 ， 央 此 以 此 来 
命名 这 种 方法 。 这 样 ， 除了 nm =0 之 外 ,方向 向 基 的 集合 1s(m)1 并 不 是 预先 指定 的 ， 相 反 它 
是 在 该 方法 的 相继 的 步 又 中 嵌 行 决定 的 。 

















定义 残 差 作为 最 陡 下 降 方向 
r(zm) =b-Ax(n) (4.13]) 
进而 通过 r(z) 和 s(a -~ 1) 的 线性 组 合 ， 表 示 为 
sn) = rn) +Rnjs(n -1)， 有 = 2 到-1 (4.132) 








中 以 mn) 是 需要 确定 的 一 个 比例 因子 。 利 用 方向 向 量 A - 共 斩 的 性 质 ， 方 程 的 两 边 滋 以 A， 
并 将 结果 表达 式 和 s(n - 1) 作 内 积 ， 然 后 求解 8B(n ) 的 结果 表达 式 ， 我 们 得 到 


SR-1)ArCa) 
BA = TDAStA DT 


发 现 这 样 得 到 的 向 最 s(0) ，s(1) ，…，S( 允 ~- 1) 确实 是 A- 共 











《4.133》 


通过 式 (4.132) 和 (4.133)， 我 人 
辆 的 。 

根据 递归 公式 (4.132) 产 生 方向 向 量 依赖 于 系数 B(n)。 由 于 Bm) 目 前 的 表示 形式 、 对 
Ban) 的 计算 公式 (4.133) 要 求 矩 阵 A 的 知识 。 出 于 计算 上 的 原因 ， 和 希望 不 利用 A 的 明 号 知识 
的 情况 下 对 BCm) 进 行 计算 。 这 样 的 计算 可 以 通过 两 个 不 同 的 公式 中 的 一 个 得 到 (Fieteher， 











1987 ) : 
1.Polak-Ribiere 公式 ， 其 中 Rn) 定义 为 
nrCna) -rz 一 1D) 
RD- rr TUET 4134) 
2.PleteherReeves 公式 ， 其 中 Rm) 定 义 为 
rr(n)rCn)》 
Rn) = (4.135) 


为 了 用 共 软 梯度 方法 处 理 属于 多 层 感知 器 无 监督 训练 的 代价 函数 ..(w) 的 无 约束 最 优化 
问题 ， 我 们 做 两 件 事情 : 
， 用 一 个 二 次 函数 逼近 代价 蚌 数 $.(w)。 也 就 是 说 ， 式 (4.117) 中 三 阶 和 更 高 阶 质 被 忽 
略 ， 这 意味 卷 我 们 正在 逼近 误差 曲面 上 的 一 个 局 部 最 小 什 。 在 这 个 基础 上 ， 比 较 式 
(4.117) 和 式 (4.122)， 我 们 可 以 得 到 表 4-7 显示 的 联系 。 
。 用 公式 表示 在 共 达 梯 度 算法 中 系数 从 z) 和 B(m) 的 计算 ， 使 得 仅仅 要 求 梯度 信息 。 
后 面 一 点 在 多 层 感知 器 中 特别 重要 ， 因 为 它 避 免 使 用 Hessian 矩阵 于 (na) ， 该 抱 阵 的 估 值 是 以 
计算 上 的 困难 著称 的 。 



































表 4-7 凡 xlj 和 .(w) 之 间 的 对 应 








二 次 函数 Fo 代价 画 数 利 (w) 
参数 向 量 xn)》 突击 权 值 向 晶 w(a) 
刁 度 向量 37(x)/ox 梯度 向 量 = 5 色 。jpw 
矩阵 生 Hessan 扫 阵 再 





没有 Hessian 矩阵 再 (=) 的 明显 知识 时 ， 为 了 计算 决定 搜索 方向 s(z ) 的 系数 Ba)， 我 们 





可 以 利 月 











式 (4.134) 的 Polak - Ribiere 公 式 或 者 式 (4.135) 中 的 Fieteher - Reeves 公 式 。 这 两 个 
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公式 都 仅 包含 残 差 的 使 用 。 假 定 一 个 二 次 函数 ， 在 共和 梯 度 方 法 的 线性 形式 中 ,Polak - Ribiare 
公式 和 了 leteher - Reeves 公式 是 等 价 的 。 在 另 一 方面 ， 在 非 一 次 代价 函数 的 情形 下 ,它们 不 
再 等 价 。 

对 于 趟 二 次 最 优化 问题 ， 共 皂 梯 度 算法 的 Folak-Ribiare 形式 优先 于 孩 算法 的 Retcher- 
Reeves 式 ， 针 对 这 个 门 题 我 们 在 下 面 提供 启发 性 的 解释 (Bertsekas, 1995 )。 由 于 代价 公式 
思 .(W) 中 三 阶 与 更 高 阶 项 存在 和 线 搜索 中 可 能 的 不 精确 性 ， 所 产生 的 搜索 方向 的 于 斩 性 逐渐 
类 失 。 这 使 得 所 产生 的 方向 向 量 s(n) 近 似 正 交 于 残 差 r(n) 的 方向 前 算法 可 能 会 陷 人 " 博 
塞 "。 当 这 种 现象 出 现 的 时 候 ， 我 们 有 (nm) = r( n - 1)， 在 这 种 情况 下 标量 B( =) 搂 近 于 零 。 
相应 地 ， 方 向 向 量 sm) 近似 于 残 蕾 Yn)， 从 而 打 左 堵塞 。 与 此 相反 的 是 ， 当 使 用 letcher- 
Reeves 公式 的 时 候 ， 共 磁 度 算 法 在 相似 的 条 件 下 显然 继续 博 塞 。 

然而 ， 在 极 少数 的 情况 下 ，Polak-Ribikee 方法 可 以 无 限 循环 下 大 而 不 收敛 。 什 得 庆幸 的 
是 ，Pelak-Ribiere 方法 的 收敛 可 以 通过 选择 
B = maxjpBne0i (4.136) 
得 到 保证 (Shewehuk, 1994 )， 其 中 了 是 由 式 (4.134) 的 Polak-Ribiare 公式 定义 的 盆 。 如 果 
Bo <0, 利 用 式 (4.136) 中 定义 的 B 的 值 等 于 重新 开始 共和 梯 度 算 法 。 重 新 开始 运算 等 于 遗 宇 
最 后 的 搜索 方向 并 量 在 最 陡 下 降 方向 上 重新 开始 (Shewchuk,1994 )。 

考虑 下 一 个 计算 参数 (” ) 的 问题 ， 它 决定 苍 梯度 算法 的 学 习 率 。 和 计算 8(n) 的 一 
样 ， 计 算 m) 的 首选 办 法 是 避免 必须 使 用 Hessian 年 阵 了 (mn)。 我 们 回忆 基 于 式 (4.126) 的 线 
最 小 化 导出 的 从 nm) 的 公式 和 源 于 更 新 公式 (4.125) 得 到 的 水 计算 公式 的 相同 。 因 孙 我 们 需 
要 一 个 直线 搜索 nb9 ， 这 样 的 目的 是 对 了 1 最 小 化 酚 数 g.(w + 她)。 也 就 是 说 ， 给 定向 量 w 和 8 
的 固定 值 ， 现 在 的 问题 是 改变 使 得 丽 数 最 小 化 。 随 着 〗 的 变化 ， 自 变 量 w+ 加 在 w 的 琅 
维 向 量 空间 中 画 出 一 条 直线 ， 因 兹 称 为 “直线 搜索 "。 直 线 搜索 算法 是 一 个 选 代 过 程 ， 它 为 共 
斩 梯 度 算法 的 每 次 迭代 产生 一 个 估计 序列 im(n)。 当 找到 令 入 满意 的 解 时 ， 直 线 搜索 被 停 
止 。 直 线 搜索 必须 在 每 个 搜索 方向 上 进行 。 

在 文献 中 提出 了 几 种 直线 索 搜 算 方法 ， 并 且 选 择 一 个 好 的 算法 是 重要 地 ， 因 为 它 对 被 
嵌入 其 中 的 共 扼 梯度 法 的 性 能 具有 次 远 的 影响 。 任 何 直线 索 搜 算法 有 两 个 阶段 ( Fletcher， 
1987) : 

*。 包括 阶段 ， 也 就 是 搜索 一 段 区 间 ， 即 包含 一 个 最 小 值 的 非 平凡 区 间 ; 

。 工段 阶段 ， 在 这 个 阶段 中 ， 区 间 被 截 成 毁 ( 即 被 分 制 )， 因 此 产生 一 系列 长 度 越 来 越 

小 的 子 区 间 。 
现在 我 们 叙述 一 个 直接 处 理 这 两 个 阶段 的 曲线 拟 合 过 程 。 

令 8..( 们 表示 多 层 感知 器 的 代价 函数 ， 表 示 为 1 的 蚌 数 。 假设 旬 ,(?) 是 严格 单 峰 的 
(onimodal)( 即 它 在 当前 点 w(zm) 的 附近 只 有 单一 的 最 小 值 ) 并 且 是 二 次 连续 可 微 的 。 我 们 沿 直 
线 开 始 搜索 过 程 ， 直 到 求 出 满足 条 件 

) 3 区 (3) > 生 (TD) 对 于 和 < 下 < 站 (4.137) 
的 三 个 点 六 、 冲 、 市 ， 如 图 4-25 所 示 。 册 于 8.。( 让 是 ?的 连续 函数 ， 式 (4.137) 描 述 的 选择 
保证 区 间 [?i ,3 ] 包 含 函 数 直 。( 们 的 一 个 最 小 值 。 假 设 函 数 g。( 人 充分 光滑 ， 我 们 可 以 认为 这 
个 函数 在 紧邻 最 小 值 的 区 间 是 执 物 线形 的 。 因 此 ， 我 们 可 以 使 用 反 抛物 线 插 值 法 (inverse 
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parabolic interpojlation) 进 行 分 段 (Press el 中 . ,1988 )。 有 具体 地 ， 这 个 掀 物 线 蚌 数 可 以 通过 二 个 初 
始点 由 、 信 、 出 氢 合 ， 如 图 4-.26 所 下， 图 中 实 线 对 应 于 有 (人 ) ， 虚 线 表示 分 段 过 程 的 第 一 次 
帮 代 。 令 冰 表 示 通 过 三 点 丸 、 闻 、 轴 的 扫 物 线 的 最 小 值 点 。 人 在 图 4-26 所 示 的 例子 中 ,我 们 
有 虹 。( Ti ) < 时 (人 )， 时 CD) < 吕 -点 市 由 丈 代 赫 ， 作 为 新 的 区 间 [ 人 ， 人]。 通 过 构造 
一 条 通过 点 六、 、 沁 抛物 线 重 复 这 个 过 程 。 上 述 包括 区 间 后 再 分 段 的 过 程 重 复 多 次 ， 直 到 
找到 一 个 足够 接近 8.,( 们 的 最 小 值 的 点 ， 此 时 直线 搜索 终止 。 
































划 v(n) 
对 govn) 的 
掩 物 线 各 近 
1 
闭 
SO) 上 避 包 .O) 
可 
gwvCn3) 上 | 
seo 上 -一 | 1 | | 
1 二 
1 | | 1 | 
用 | 国人 
站 1 1 1 
Ti 2 3 胖 全 人 3 ?3 也 
图 4-25 直线 搜索 示意 图 图 4 26 反 抛 物 插值 





Brent 的 方法 建立 刚才 所 述 的 三 点 曲线 拉 合 过 程 的 一 个 高 度 精练 的 形式 (Press et al.， 
1988 )。 在 计算 的 任何 特殊 阶段 ，Brent 方法 保持 。(?) 函 数 六 个 点 的 轨迹 ， 所 有 点 可 能 不 必 
互 不 相同 。 如 前 所 述 。 抛物 线 插值 试图 通过 这 的 到 个 。 为 了 使 得 这 个 插值 法 是 可 接受 
的 ， 剩 下 的 三 点 必须 满足 一 定 标准 。 最 终结 果 是 一 个 鲁 棒 直 线 搜 索 算法 。 

非 线性 共 扼 梯度 算法 小 结 


现在 我 们 给 出 形式 措 述 用 于 多 层 感知 器 监督 训练 的 共 扼 梯度 算法 的 非 线性 ( 非 二 次 ) 形 式 
的 所 有 需要 的 要 素 。 表 4-8 给 出 该 算法 的 小 结 。 






































拟 Newton 方法 
重新 开始 讨论 拟 Newton 方法 ， 我 们 发 现 这 些 基本 上 是 梯度 方法 ， 用 更 新 公式 
w+1I) = wm)+ 坟 mn)s(n) 《4.138) 
表示 ， 其 中 方向 向 量 s(m) 用 梯度 向 量 g(z) 定 义 为 
SCE) = -SCr)g(n) 《4.139》 


矩阵 S(m) 是 在 每 次 迭代 中 调整 的 正定 矩阵 。 这 样 做 是 为 了 使 得 方向 向 量 s(m) 逼 近 牛 顿 方 
向 ， 纯 

一 《有 思 w1B 凤 ) (3 昌 13w) 
拟 Newton 方法 使 用 误差 曲面 的 二 阶 (曲率 ) 信 息 ， 实 际 上 不 要 求 Hessian 琵 阵 开 的 知识 。 这 才 
过 使 用 两 次 连续 选 代 w(r)、w(n + 1 与 梯度 向 量 g(r)、g(a + 1) 来 实现 。 令 
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表 48 用 于 务必 感知 器 有 监督 训练 的 非 线 性 共 扼 梯度 算法 小 结 





初 寻 化 
除非 权 值 向量 w 的 先 验 知 议 是 可 用 的 ， 否 旭 使 用 与 反 闪 传播 算法 相似 的 过 程 选 拌 初始 值 w(0) ， 
计算 
对 于 wt0)， 用 反 向 传播 算法 计算 习 度 尚明 gt0)。 
. 设 轰 s0y =r(0) = -BCO)- 
. 在 时 间 步 >， 用 直线 搜索 寻找 充分 最 小 化 雪 。( 首 的 惟 ， 对 于 固定 的 w 和 s， 代 价 函 数 思 ,表示 为 # 的 函数 ， 
. 测试 决定 区 归 的 欧 几 里 德 范 数 是 否 下 降 到 一 个 特定 的 值 之 下 ， 即 为 初始 值 | rC0) | 的 很 小 的 一 部 分 。 
, 更 新 权 值 向 量 : 


mb 


(n+1 = w+ 人 sn 
对 于 w(mr+1)， 用 反 向 传播 算法 计算 更 新 的 梯度 向 量 BCn+ ]). 
7. 设置 Ma+I)= -ge+l)o 
. 用 Polak-Fibiene 方法 计算 HKm+ 1): 


吕 


oo 


as lss za) .0 


BayD = ma 1 


9. 更 新 方向 向 最 : 
Sat+i n+rD+Ena+rlDstny 
10. 设 罩 ==a+1， 转 第 3 步 . 
侍 止 准 刚 ”当下 述 条 件 满足 时 结 末 算 法 : 
rm 上 入 ECO0) 1 
其 中 上 是 一 个 指定 的 小 数 。 





qtn) = gz+l)-Sn) 《4,140) 
和 Amw(p)=wn+l) -mn) 《4,141) 
这 样 我 们 可 以 通过 逼近 式 

人 = [BoAw(n) (1 


得 到 曲率 信息 。 特 别 地 ， 给 定 允 个 线性 独立 的 权 值 增 基 Aw(0) ，Aw(1)，…，Aw( 丈 -1) 和 
各 自 的 梯度 增 量 q(0) ，q(1) ，…，4( 歼 -1)， 我 们 可 以 通 近 Hessian 矩阵 开 如 下 : 


了 = [q600) ,qq( 丈 -1T][Aw(O) Amw(D) mAw( 惠 -1T] (4.143) 
我 们 也 可 以 盘 近 邀 Hessian 矩阵 如 下 : 
开 ' = [Aw(0),Aw(1D) mAw( 现 -1)][q(0).q() 红 歼 - 2] (4.144) 


当代 价 函 数 &.。.(w) 为 二 次 函数 的 时 候 ， 式 (4.143) 和 (4.144) 是 精确 的 。 

在 最 常用 的 一 类 拟 Newton 方法 中 ， 惩 阵 SCn + 1) 由 它 先 前 的 值 SCz)， 向 量 Aw(m) 和 
q(n) 三 项 使 用 递归 算式 得 到 (Fletcher,1987; Bertsekas,1995 ) : 
Aw(n)Awr(m) SCn)qCz)g tn)SCn) 





SCn+1) = S(e)+ 








qd CnqCn) gr(nSCn)gCn) (4.145) 
+sn)[q(n)S(n)q(n)]iv(n)v7(n)] 
Amw(m) SCn)q(m) 
其 由 ROAD 下 SO 人 
并 且 0s<s(n)<I 对 于 所 有 nm 《4.147) 


该 算法 由 任意 定义 的 正定 矩阵 S(0) 进 行 初始 化 。 拟 Newton 方法 的 特殊 形式 参数 化 为 如 何 定 
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义 标 基 从 m) ， 如 下 所 示 (Fletcher,1987 ) 
。 对 于 所 有 满足 Cn) =0， 我们 得 到 Davidon-FletcherPowell(DFP) 算 法 ， 它 是 历史 上 
最 初 的 拟 Newton 方法 ， 
*。 对 于 所 有 满足 Sm) = 上， 我 们 得 到 Broyden_Fleteher-Goldfa 中 -Shanmo 算法 ， 它 在 日 前 
被 认为 是 拟 Newton 方法 的 最 好 形式 。 


氢 Newton 方法 和 共 扼 梯 度 法 的 比较 


我 们 通过 在 非 二 次 最 优化 问题 背景 下 对 拟 Newton 方法 和 共 扼 梯度 法 的 比较 ， 来 结束 拟 
Newton 方法 的 简要 讨论 ( Bertsekas,1995) : 
。 拟 Newton 方法 和 共 扼 梯度 法 玫 避 免 使 用 Hessian 矩阵 。 然 而 ， 氢 Newton 方法 通过 通 
近 逆 Hessian 邱 阵 来 进行 下 一 步 计 算 。 所 以 ， 当 直线 搜索 是 精确 的 并 且 充 分 远近 一 个 
具有 正定 Hessian 矩阵 的 局 部 最 小 值 时 ， 氢 Newton 方法 趋 于 通 近 Newion 方法 ， 因 此 
得 到 的 收 敏 速度 比 共 扼 梯 度 法 可 能 的 收敛 速 度 更 快 。 
” 拟 Newton 方法 对 在 最 优化 的 直线 搜索 阶段 精度 的 灵敏 件 不 如 共 扼 梯度 法 。 
除了 方向 向 量 8(n) 计 算 相关 的 矩阵 向 量 乘法 之 外 ， 拟 Newion 方法 还 要 求 存储 矩阵 
S(n)。 最 后 结果 是 拟 Newton 方法 的 计算 复杂 度 是 0( 配 )。 相 反 ， 共 扼 梯 度 法 的 计 
算 复 杂 度 为 O( 下 )。 这 样 ， 当 维 数 刺 ( 即 权 值 向 量 w 的 个 数 ) 很 大 时 ， 共 撮 梯 度 法 比 
拟 Newton 方法 在 计算 上 具有 更 大 的 优越 性 。 
正 是 因为 后 面 这 一 点 ， 实 际 上 拟 Newton 方法 限于 小 规模 神经 网 络 的 设计 。 


4.19 卷 积 网 络 


到 目前 为 止 ， 我 们 都 在 考虑 多 层 感知 器 算法 设计 和 相关 的 问题 。 本 节 我 们 集中 在 多 度 感 
知 器 本 身 的 结构 布局 问题 上 。 特 别 地 ， 我 们 描述 一 类 特定 的 通称 为 卷 积 网 络 的 多 层 感 知 器 ; 
这 些 网 络 所 隐 含 的 思想 已 经 在 第 1 章 简要 给 出 

一 个 卷 积 网 络 是 为 识别 二 维 形状 而 特殊 设计 的 一 个 多 层 感 知 器 ， 这 种 二 维 形 状 对 平移 、 
比例 缩放 、 眉 斜 或 者 其 他 形式 的 变形 具有 高 度 不 变性 。 这 个 艰巨 的 任务 是 通过 如 下 网 络 在 监 
督 方式 下 学 会 的 ， 网 络 的 结构 包括 如 下 形式 的 约束 (LeCun and Bengio,1995) : 

1. 特征 提取 。 每 一 个 神经 元 从 上 一 层 的 局 部 接受 域 得 到 突 触 输入 ， 因 和 而 迫使 它 提 取 局 
部 特征 。 一 旦 一 个 特征 被 提取 出 来 只 要 它 相对 于 其 他 特征 的 位 置 被 近似 地 保留 下 来 ， 它 的 
精确 位 置 就 变 得 没有 那么 重要 了 。 

2. 特征 隐 射 。 网 络 的 每 一 个 计算 层 都 是 由 多 个 特征 映射 组 成 的 ， 每 个 特征 映射 都 是 平 
面 形 式 的 ， 平 面 中 单独 的 神经 元 在 约束 下 共享 相同 的 罕 触 权 值 集 。 这 种 结构 约束 的 第 二 种 形 
式 具 有 如 下 的 有 益 效果 : 

” 平移 不 变性 ， 强 迫 特征 映射 的 执行 使 用 具有 小 尺度 核 的 卷 积 ， 再 接着 用 一 个 sigmoid 

( 挤 压 ) 函数 。 

，。 自由 参数 数量 的 缩减 ， 通 过 权 值 共 享 实现 。 

3. 子 抽样 。 每 个 卷 积 层 跟着 一 个 实现 局 部 平均 和 子 抽样 的 计算 层 ， 由 此 特征 肌 射 的 分 
办 率 降 低 。 这 种 操作 具有 使 特征 映射 的 输出 对 平移 和 其 他 形式 的 变形 的 敏感 度 下 降 的 作用 。 
正如 所 述 ， 卷 积 网 络 的 发 展 是 由 神经 生物 学 激发 的 ， 这 可 追 漳 到 Hubel 和 Wiesel(1962， 
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1977) 关 于 猫 的 视觉 皮层 上 局 部 灵敏 和 方位 选择 神经 元 的 开 折 性 工作 。 

我 们 强调 指出 在 -个 卷 积 网 络 所 有 层 中 的 所 有 权 值 都 是 通过 训练 来 学 习 的 。 此 外 ， 网 络 
自动 地 学 习 提取 它 自 身 的 特征 。 
图 4-27 表明 由 一 个 输入 层 和 四 个 巾 藏 层 与 -- 个 输出 层 组 成 的 卷 积 网 络 的 体系 结构 布局 。 
这 个 网 络 被 设计 用 于 实现 图 像 处 理 (例如 手写 体 的 识别 )。 输 人 层 出 28 x 28 个 感知 节点 组 成 ， 
接收 已 经 近似 处 于 中 心 位 置 和 在 大 小 上 规整 化 的 不 同 字符 的 网 像 。 然 后 ， 计 算 流 程 在 卷 积 和 
子 抽样 之 间 交 巷 ， 如 下 所 述 : 

。 第 -隐藏 层 进行 卷 积 。 它 由 四 个 特征 有 映 射 组 成 ， 每 个 特征 映射 由 24 x 24 个 神经 元 组 
成 。 每 个 神经 元 指定 一 个 5x 5 的 接受 域 ; 
第 一 隐 茂 层 实 现 子 抽样 和 局 部 平均 。 它 同样 由 四 个 特征 映射 组 成 ， 但 其 每 个 特征 映 
射 由 12 x 12 个 神经 元 组 成 。 每 个 昼 经 上 具有 -个 2x2 的 接受 域 ， 一 个 可 训练 系 闭 ， 
一 个 可 训练 偏 置 和 -个 sigmoid 数 活 函数 。 可 训练 系数 和 偏 置 控制 神经 元 的 操作 点 ; 
例如 ， 如 果 系 数 很 小 ， 该 昼 经 匹 以 拟 线性 方式 操作 。 
第 三 隐藏 层 进行 第 二 次 卷 积 。 它 由 12 个 特征 映射 组 成 ， 每 个 特征 映射 由 8 x8& 个 神 
经 元 组 成 。 该 隐藏 层 中 的 每 个 神经 元 可 能 具有 和 上 一 个 隐藏 层 几 个 特征 映射 相连 的 
突 触 连接 。 否 则 ， 它 以 第 一 个 卷 积 层 相似 的 方式 操作 。 
第 四 个 隐藏 层 进行 第 二 次 子 抽样 和 局 部 平均 计算 。 它 由 12 个 特征 映射 组 成 ， 但 每 个 
特征 映射 由 4x4 个 神经 元 组 成 。 否 则 它 以 第 一 次 抽样 用 伏 的 方式 操作 。 
输出 层 实现 卷 积 的 最 后 阶段 。 它 由 26 个 神经 元 组 成 ， 每 个 神经 元 指定 为 2 个 可 能 
的 字符 中 的 一 个 。 嘴 前 面 一 样 ， 每 个 神经 元 指定 一 个 4x4 的 接受 域 。 

相继 的 计算 层 在 卷 积 和 抽样 之 间 的 连续 交替 ， 我 们 得 剑 一 个 “ 冯 尖 塔 "的 效果 。 也 就 是 在 
每 个 卷 积 或 抽样 层 。 随 着 空间 分 辨 率 下 降 ， 与 相应 的 前 一 层 相 比特 征 映射 的 数量 增加 。 卷 积 




















[EB 可 之 后 进行 子 抽样 的 思想 是 受到 Huabel 和 Wiesel(1962) 首 先 描述 的 “简单 的 "细胞 后 面 跟着 "复杂 


的 "细胞 !! 的 想法 的 启发 而 产生 的 。 
特征 映射 特征 肌 射 特征 陕 射 输出 
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卷 积 子 采样 卷 积 子 采样 卷 积 
图 4-27 ”用 于 图 像 处 理 如 手写 体 识别 的 卷 积 网 络 (MTT 出 北 社 允许 复制 
图 4-27 所 示 的 多 层 感 知 器 包 售 近 似 100 000 个 突 触 连接 ， 但 只 有 大 约 2 600 个 自由 参数。 


自由 参数 在 数量 上 显著 地 减少 是 通过 权 值 共 享 获得 的 。 学 习 机 器 的 能 力 (以 VC 维 的 形式 度 
量 ) 因 而 下 降 ， 这 又 提高 它 的 泛 化 能 力 (LeCun,1989 )。 甚 至 更 值得 注意 的 是 对 自由 参数 的 调 
整 通过 反 向 传播 学 习 的 随机 ( 串 行 的 ) 形 式 来 实现 。 

另 一 个 显著 的 特点 是 使 用 权 值 共享 使 得 以 并 行 形式 实现 卷 积 网 络 变 得 可 能 。 这 是 卷 积 网 
络 对 完全 连接 的 多 层 感知 器 而 言 的 另 一 个 优点 。 
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从 图 4-27 的 卷 积 网 络 中 学 习 的 经 验 有 两 个 方面 。 首 先 ， 通 过 结合 当前 任务 的 先 验 知识 
约 现 其 设计 ， 一 个 易 调 整 大 小 的 多 层 感 知 器 能 够 学 习 一 个 复杂 的 、 高 维 的 和 非 线性 的 映射 。 
次 ， 突 触 权 值 和 偏 直 水 平 可 以 周而复始 地 执行 通过 训练 集 的 简单 反 向 传播 算法 进行 学 习 。 


4.20 小 结 和 讨论 


反 向 传播 学 习 山 终 成 为 多 层 感知 器 的 训练 的 标准 算法 ， 它 通常 作为 其 他 学 习 算法 的 基 
E。 反 向 传 播 算法 的 名 字 起 源 于 这 样 一 个 事实 ， 网 络 的 代价 丽 数 (性 能 度量 ) 对 白 由 人 参数 ( 突 
和 触 权 值 和 偏 剖 ) 的 入 导数 是 由 通过 网 络 一 层 一 层 反 向 传播 误差 信和 (由 输出 神经 元 计算 ) 所 决 
定 的 。 在 这 样 的 处 理 过 程 中 ， 它 以 非常 高 明 的 方式 解决 信任 赋值 (ereditrassignment) 的 问题 。 
该 算法 的 计算 能 力 在 于 它 的 葬 个 主要 特征 : 

， 更 新 多 层 感知 器 突 触 权 值 和 偏转 的 局 部 方法 。 

*， 计算 代价 函数 对 这 些 自由 参数 的 所 有 偏 导数 的 高 效 方法 。 

对 于 训练 数据 的 一 个 给 定 回合 ， 反 向 传播 算法 雇 这 样 两 个 方式 中 的 一 个 操作 : 串 行 的 方 
式 或 者 集中 式 的 方式 。 在 串 行 方式 中 网 络 的 所 有 神经 元 的 突 触 权 值 都 是 在 一 个 模式 接着 一 个 
模式 的 基础 上 调整 的 。 因 此 .在 计算 中 使 用 的 误差 明 面 梯度 向 量 的 估算 值 在 本 质 上 是 随机 的 
(任意 的 )， 关 此 ”随机 反 向 传播 "的 名 称 同样 是 用 来 指 反 向 传播 学 习 的 趾 行 方式 。 在 另 一 方 
面 ， 在 集中 式 方式 中 ， 对 所 有 突 触 权 值 和 偏 置 的 调整 是 在 一 个 回合 接 一 个 回合 的 基础 上 进行 
的 ， 这 样 在 计算 中 使 用 梯度 疝 划 更 精确 的 估计 。 无 论 它 的 缺点 如 何 ， 反 向 传播 学 习 的 申 行 
(随机 ) 形 式 是 神经 网 络 设计 中 使 用 频率 最 高 的 ， 特 别 是 在 大 型 问题 上 上。 为 了 得 到 最 好 的 结 
果 ， 需 要 小 心地 调整 算法 。 

在 多 层 感知 器 设计 中 的 特定 细节 问题 自然 依赖 于 有 关 具 体 的 应 用 。 然 而 ， 我 们 可 以 做 出 
两 种 区 分 : 

1 在 涉及 非 线 性 可 分 模式 的 模式 分 类 中 ， 网 络 中 的 所 有 神经 匹 都 是非 线性 的 。 这 个 非 
线性 是 通过 使 用 sigmoid 本 数 来 获得 的 ， 该 函数 的 两 种 通常 用 法 是 (a) 非 对 称 logistie 函数 ， 和 
《b) 反 对 称 双 曲 正 切 函 数 。 每 个 神经 元 负责 在 决策 空间 中 产生 它 自 己 的 超 平面 。 通 过 一 个 监 
督 的 学 习 过 程 ， 网 络 中 由 所 有 神经 元 形成 的 超 平面 的 组 合 被 反复 调整 ， 使 之 分 离 来 自 不 同类 
的 以 前 未 曾 见 过 的 模式 时 具有 最 少 的 平均 分 类 误差 。 对 于 模式 分 类 来 说 ， 随 机 反 向 传播 算法 
是 实现 训练 最 广泛 使 用 的 算法 ， 特 别 是 在 大 型 问题 上 (例如 光学 字符 识别 )。 

2. 在 非 线性 回归 中 ， 多 居 感 知 器 的 输出 范围 应 该 大 到 足以 以 包含 过 程 值 ; 如 果 这 个 信 
息 不 能 得 到 ， 那 么 线性 输出 神经 元 的 使 用 是 最 明智 的 选择 。 对 学 习 算法 ， 我 们 提供 如 下 的 观 
察 事实 

*。 反 向 传播 学 习 的 忠 行 (随机 ) 方 式 比 集中 方式 慢 得 多 。 

*。 反 向 传播 学 习 集中 方式 比 共 扼 梯 度 方法 悍 。 然 而 ， 注 意 后 一 种 方法 只 能 在 集中 方式 

中 使 用 。 

我 们 以 一 些 关于 性 能 度量 的 最 后 评论 结束 这 一 讨论 。 本 章 中 提出 的 反 向 算法 的 推导 是 基 
于 以 这 种 或 那 种 方法 最 小 化 代价 函数 包 , ， 代 价 函 数 8。 定 义 为 误差 平方 和 在 整个 训练 集 上 平 
均 。 这 个 准则 的 一 个 重要 优点 是 它 的 普遍 性 和 数学 上 的 易 处 理性 。 然 而 ， 实 际 中 遇 到 的 许多 
情 部， 最 小 化 代价 函数 刀 相 当 于 优化 并 不 是 系统 最 终 目 标的 中 间 量 ， 并 且 可 能 因此 导致 一 
个 次 优 的 性 能 。 例 如 ， 在 资本 市 场 交易 系统 中 ， 一 个 投资 者 或 交易 者 的 最 终 目标 是 以 最 小 的 
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776 _ 用? 并 





风险 获得 最 大 的 预期 回报 (Choey and Weigend,1996;WMoody and Wu,1996 )。 作 为 风险 调整 回报 
的 任 能 评价 标准 的 夏普 率 (Sharpe ratio) 或 回报 易 失 率 (iewarl-to-yolafility raio) 从 直觉 上 比 思 .更 
有 吸引 力 。 


注释 和 参考 文献 


] 

















sigmoid 函数 被 这 样 命名 是 因为 它们 的 图 形 是 “s" 形 的 。Menon et al.(1996) 对 两 类 sigmoid 
函数 进行 了 深入 的 研究 : 。 
*， 简单 sigmoid， 定 义 为 渐进 有 界 的 利 完全 单调 的 单 变量 奇 函 数 。 
*。 双 曲 sigmoid，、 代 表 简单 sigmoid 的 一 个 真子 集 和 双 曲 线 正 切 函 数 的 上 自然 推广 - 
对 于 LMS 算 法 的 特殊 情形 .已 经 证 明 使 用 动量 常数 " 降低 学 习 率 参数 ? 的 稳定 范围 
并 且 如 果 习 没有 被 适当 调整 ， 这 样 会 导致 个 稳定 。 此 外 ， 错 误 调 整 也 随 的 增加 而 增 
长 ; 更 详细 的 论述 请 见 Roy and Shynk(1990)。 
对 于 从 第 一 条 原则 中 导出 包含 动量 常数 的 反 向 传播 算法 ， 见 Hagiwara(1992)。 
如 果 向 量 w'" 不 比 它 邻近 的 点 向 量 更 差 的 话 ， 向 量 w" 被 称 为 输入 输出 函数 忆 的 一 个 局 
部 最 小 值 ; 也 就 是 ， 如 果 存 在 一 个 e 如 下 (Berlsekas ,1995 ) : 

Fw ) < Fw) 对 所 有 满足 | ww | <e 的 W 
如 果 到 不比 其 他 所 有 的 向 量 都 差 ， 则 称 它 为 函数 下 的 一 个 全 局 最 小 值 ; 也 就 是 ， 

F(w ) < Fw) 对 所 有 的 wE 车 









































其 中 是 吧 的 维 数 。 

对 有 效 梯度 估计 应 用 反 向 传播 的 首次 文献 记载 应 归功 于 Werbos(1974)。 在 4.10 节 中 给 
贞 的 材料 依照 Saarinen set al .(1992) 给 出 的 处 理 方法 :Werbos(1990) 对 该 题目 给 出 更 一 般 
的 讨论 。 
网 络 设计 得 益 于 Hessian 矩阵 知识 的 其 他 方面 包括 ( Bishop,1995)， 

(1) 在 训练 数据 中 进行 很 小 变化 后 ，Fiessian 矩阵 组 成 多 层 感知 器 再 训练 过 程 的 基础 。 
(2) 在 Bayes 学 习 的 背景 下 : 
*。 Hessian 矩阵 的 逆 可 用 于 为 训练 后 的 神经 网 络 作出 的 非 线性 预测 提供 误差 条， 并 且 

。 Hessian 矩阵 的 特征 值 下 以 用 于 决定 正则 化 参数 的 合适 值 。 

Buntine 和 Weigend(1994) 回 顾 计算 Hessian 矩阵 的 精确 算法 和 近似 算法 ， 并 有 特别 针对 
神经 网 络 的 参考 文献 ; 也 可 参考 Battiti(1992) 的 文章 。 

通用 逼近 定理 可 以 看 作 是 Weierstrass 定理 (Weierstrmass,1885) 的 自然 扩展 。 这 个 定理 表明 
任何 一 个 在 实 四 闭 区 间 上 的 连续 函数 都 可 以 表示 成 该 区 间 上 绝对 一 致 收敛 的 多 项 式 级 
数 的 极限 。 

以 多 层 感知 器 作为 工具 进行 对 任意 连续 函数 表示 的 研究 很 可 能 是 首先 钙 
HeehtNielsen( 1987) 提 起 关 济 ， 他 引用 了 归功 于 Sprecher( 1965) 的 Kolomogoroy 伙 加 定理 的 
改进 版 本 。 然 后 Gallant 和 White(1988) 证 明 ， 在 隐藏 层 具有 单调 “余弦 " 挤 压 和 在 输出 无 
挤 压 的 单 隐藏 层 多 层 感 知 器 是 被 作为 “Fourier 网 络 "的 特殊 情形 嵌入 的 ， 它 的 输出 产生 
给 定 函数 的 Fourier 级 数 莉 近 。 然 而 ， 在 传统 的 多 层 感 知 器 背景 下 ，Cybenko 第 一 次 严 
格 证 明了 一 个 隐藏 层 足够 一 致 逼 近 任 条 具有 在 单位 超 立 方 体 中 的 支 集 的 函数 ; 这 项 工 
作 作 为 1988 伊利 诺 斯 大 学 的 技术 报告 发 表 ， 一 年 之 后 作为 论文 发 表 ( Cybenko, 1988， 






























































攻 777 





[9] 


f10] 


[ 


1989)。 在 1989 年 ， 另 外 两 篇 关于 多 尽 感 知 器 通用 逼近 器 的 论文 独立 发 表 了 ， 一 篇 由 
Funahashi 完成 ， 另 外 一 篇 由 Homik，Suinchcombe 和 White 完成 。 对 后 来 关于 有 禹 近 问题 的 
贡献 ， 请 见 Light(1992b) 。 
交叉 确认 的 发 展 历史 在 Stone(1974) 中 有 记载 。 交叉 确认 的 叫 想 至 少 在 20 世纪 30 年 代 
就 已 广泛 传播 ， 但 该 项 技术 的 改进 是 在 20 世纪 印 年 代 和 70 年 代 完 成 的 。 该 领域 的 两 
篇 重要 论文 是 Sone(1974) 和 Ceisser(1975)， 他 们 独立 地 并 且 几 乎 同时 提出 这 项 技术 。 
这 项 技术 被 Sone 命名 为 “交叉 确认 方法 "， 而 Geisser 则 称 之 为 " 顶 测 样本 复 用 方法 "。 
关于 训练 早期 停止 方法 的 最 初 参 考 文献 包括 Morgan and Bourard(1990) 和 码 eigend et al. 
《1990)。 也 许 对 多 层 感知 器 训练 早期 停止 方法 最 详尽 的 统计 学 分 析 是 由 Amari et a. 
《1996a) 提 出 的 。 这 项 研究 得 到 具有 108 个 可 调整 参数 和 一 个 非常 巨大 的 数据 集 (50 000 
个 样本 ) 的 8-8&-4 分 类 器 的 计算 机 仿真 的 支持 。 
级 联 相关 学 习 体系 结构 (Tahlman and Lebiere,1990) 是 网 络 生长 方法 的 一 个 例子 。 该 过 程 
从 一 个 最 小 网 络 开始 ， 这 个 最 小 网 络 只 有 基于 输 人 /得 出 考虑 而 指定 的 一 些 输入 和 一 个 
或 者 更 多 的 输出 节点 ， 但 隐藏 层 没有 节点 。 例 如 ，LMS 算法 可 以 用 来 训练 网 络 。 隐 茂 
神经 元 被 一 个 接 一 个 地 添加 到 网 络 中 ， 因 此 得 到 一 个 多 层 结 构 。 每 个 新 的 神经 元 从 每 
个 输入 节点 接受 一 个 突 触 连接 ， 并 且 从 每 个 先前 存在 的 隐藏 神经 元 同样 接受 连接 。 当 
增加 一 个 新 的 隐藏 神经 元 的 时 候 。 该 神经 元 输入 边 的 罕 触 连接 被 冻结 ; 只 有 在 输出 边 
的 突 触 连 接 被 反复 地 训练 这 个 被 加 进去 的 隐藏 神经 元 就 成 为 网 络 中 永久 的 特征 检测 
器 。 添 加 新 的 隐藏 神经 元 的 过 程 如 上 述 形 式 进行 直到 得 到 令 人 满意 的 性 能 为 止 。 

然而 在 Lee et alL.(1990) 所 论述 的 网 络 生长 方法 中 ,在 前 向 通过 ( 冰 数 级 自 适应 ) 和 
反 向 通过 (参数 级 自 适 应 ) 上 增加 了 称 为 结构 级 自 适应 的 第 三 级 计算 。 在 第 三 级 计算 中 ， 
网 络 的 结构 通过 改变 神经 元 的 数量 和 网 络 中 神经 元 之 间 的 结构 关系 而 进行 调整 。 这 里 
所 使 用 的 准则 是 当 估计 误差 (收敛 之 后 ) 比 期 望 的 信 大 ， 则 在 网 络 中 最 需要 的 地 方 增加 
一 个 神经 元 。 新 的 神经 元 的 合适 位 置 取决 于 监督 网 络 的 学 习 行为 。 特 别 地 ， 如 果 在 一 
个 长 期 的 参数 调整 (训练 ) 之 后 ， 某 神经 元 输入 的 突出 连接 权 值 向 量 连续 显著 地 波动 
可 以 蕉 断 正 被 讨论 的 神经 元 没有 足够 的 表达 能 力学 习 它 所 承担 的 任务 。 结 构 级 自 适应 
同样 包括 防备 神经 元 可 能 出 现 的 灭绝 。 一 个 神经 元 当 它 不 在 是 网 络 的 功能 元 素 或 者 它 
是 网 络 中 多 余 元 素 的 时 候 ， 它 将 灭绝 。 这 种 洁 络 增长 的 方法 看 起 来 是 计算 密集 的 。 
HechrNielsen(1995) 描 述 一 种 复制 器 神经 网 络 ， 它 是 具有 三 个 隐藏 层 和 一 个 输出 层 的 多 
层 感知 器 的 形式 ， 
， 在 第 二 和 第 四 ( 隐 含 ) 层 中 的 激活 函数 通过 双 曲 正切 函数 定义 ， 

42(0) = go) = tanh(n) 

其 中 " 是 在 这 些 层 中 一 个 神经 元 的 被 包含 的 诱导 局 部 域 。 

。 在 中 间 ( 隐 含 ) 层 的 每 个 神经 元 的 激活 函数 由 


， 1 1 - 
9 (o) = 了 + 忆 an， 一 刘 ) 
给 出 ， 其 中 a 中 一 个 增益 参数 ，" 是 该 层 中 神经 元 的 诱导 局 部 域 。 画 数 pg? (5 ) 描 述 一 


个 光滑 的 具有 六 级 的 阶梯 激活 函数 ， 因 而 本 质 把 相关 神经 元 层 的 输出 向 量 转化 为 天 = 
六 级 ， 其 中 半 是 中 间 隐 藏 层 的 神经 元 数 自 。 
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。 和 输出 层 中 的 神经 元 是 线性 的 ， 它 们 的 激活 函数 定义 为 

da(oy) = 
基于 这 种 神经 网 络 结构 ，Hecht-Nielsen 提出 了 - -个 定理 ,证明 对 将 机 输入 数据 向 量 的 最 
佳 数据 压缩 是 可 以 得 到 的 。 

Li3] 我 们 最 起 码 需 要 是 一 个 解释 局 部 最 小 问题 的 反问 传 播 学 习 的 理论 框架 。 这 是 一 个 难以 
完成 的 任务 。 不 过， 在 文献 中 已 有 关于 这 个 问题 的 一 些 进展 的 报告 。Baldi 和 Homik 
(1989) 考 虑 了 具有 线性 激活 函数 的 分 层 前 馈 神 经 网 络 使 用 反 向 传播 学 习 中 的 学 习 问题 。 
他 们 论文 中 的 主要 结论 是 误差 由 面 只 有 炊 一 的 最 小 值 ， 对 应 于 训练 模式 的 协 方差 矩阵 
第 一 主 特征 向 量 所 扩张 的 子 空 间 上 的 正 交 投 影 ; 误 盖 暴 面 上 所 有 的 其 他 临界 点 都 是 圣 
点 。Gor 和 Tesi(1992) 考 虑 了 反 向 传播 更 一 般 的 情形 ， 包 括 使 用 非 线性 神经 扰 。 他 们 论 
文中 的 主要 结论 是 对 于 线性 可 分 模型 ， 亚 以 通过 使 用 反 向 传播 学 习 的 集中 处 理 方式 来 
确保 收敛 于 一 个 最 优 解 (也 就 是 全 局 最 小 值 )， 并 且 网 络 对 新 样本 的 活化 能 力 越过 了 
Rosenblatt 模型 。 

[14] 基于 启发 1 到 启发 4 对 到 向 传播 算法 的 修改 被 称 为 dela-bardelta 学 习 规 则 (Jacobs， 
1988) ， 它 来 源 于 与 在 4.3 节 导 出 反 向 传播 算法 的 传统 形式 柑 似 的 过 程 。delia-bar-delta 
学 习 规则 的 实现 可 以 通过 采用 与 简 度 复 用 方法 (Hush and Sales,1988; Haykin and Deng， 
1991) 相 似 的 思想 来 进行 简化 。 

Salomon 和 Van Hemmen(1996) 提 上 出 一 种 加 速 反 向 传播 学 习 过 程 的 动态 自 适应 过 程 。 
它 的 根本 思想 是 用 前 一 时 间 步 的 学 习 率 ， 罗 微 地 增加 和 了 减少 它 ， 对 学 习 率 参数 的 这 两 
个 新 的 值 求 代价 函数 的 值 ， 然 后 选择 使 代价 函数 取 值 小 的 一 个 。 

[15] 共 示 梯 度 方法 的 经 典 参考 文献 是 Hestenes and Stiefsl( 1952) 的 著作 。 关 于 共 斩 梯 度 算法 收 
伍 行 为 的 讨论 ， 见 Laenberger(1984) and Bersekas(1995)。 关 于 共 雹 梯度 算法 的 许多 方面 
的 指导 性 处 理 方法 ， 见 Shewchuk(1994)。 关 于 在 神经 网 络 领域 中 该 算法 的 易 读 文献 见 
Jopanssun et al.(1990)。 

[16] 共 堪 梯度 算法 的 传统 形式 要 求 使 用 直线 搜索 方法 ， 它 可 能 因为 自身 的 尝试 件 和 误差 性 
而 花费 时 间 。Msler( 1993) 播 述 共 斩 梯 度 算 法 的 一 个 修改 版 本 ， 称 为 比例 共 因 梯度 算法 ， 
它 避 免 使 用 直线 搜索 。 从 本 质 上 来 说 ， 直 线 搜索 由 算法 的 一 维 空间 的 Tevenherg- 
Marquardt 形式 代替 。 使 用 这 种 办 法 的 动机 是 避 开 由 非 正定 Hessian 乍 阵 引 起 的 困难 
(Fleteher,1987) 。 

[17] Hubel 和 Wiesel 关于 “简单 "和 “复杂 "细胞 的 概念 在 神经 网 络 文献 中 第 一 次 被 Pukushima 
《1980,1995) 在 设计 一 个 称 为 神经 认 知 机 的 学 习 机 的 过 程 中 所 利用 。 然 而 ， 这 个 学 习 机 
以 自 组 织 的 形式 运行 ， 而 图 4.27 描述 的 着 积 网 络 使 标定 的 样本 以 监督 的 形式 运行 。 























































































































习题 
XOR 问题 
4.1 为 了 解决 XOR 问题 ， 图 4-28 表示 - .个 包 
括 单个 隐藏 神经 元 的 神经 网 络 ， 这 个 网 络 可 以 看 作 
是 在 4.5 节 中 所 考 起 的 替代 模型 。 通 过 构建 (a) 决 策 。 。 
区 域 和 (b) 网 络 的 真 值 表 ， 证 明 图 4-28 表示 的 网 络 图 428 
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解决 了 XOR 问题 。 

4.2 使 用 反 向 传播 算法 为 图 4-8 所 下 的 神经 网 络 计算 一 组 突击 权 值 和 偏 置 的 值 以 解决 
XOR 问题 。 假 设 浊 线性 使 用 一 个 jagistie 丽 数 。 

反 向 传播 学 习 

4.3 在 权 值 更 新 中 包含 的 动量 项 可 以 认为 是 满足 启发 3 和 4 的 机 制 ， 它 们 为 加 速 反 向 
传播 算法 的 收敛 提供 指导 ， 这 在 4.17 节 中 进行 了 讨论 。 说 明 这 个 陈述 的 正确 性 。 

4.4 动量 项 通常 被 指定 为 在 0<a<1 范围 的 正 值 。 如 有 果 "是 赋予 在 -1 < us0 之 间 的 
一 个 负 值 ， 研 究 在 这 样 的 条 件 下 使 得 式 (4.41) 关 于 时 间 的 行为 差异 。 

4.5 考虑 包括 单个 权 值 的 网 络 的 简单 例子 ， 它 的 代价 函数 足 

锡 (2) = 有 (2 ao 天 十 且 
其 中 wo、 而 和 护 是 常数 。 用 具有 动量 项 的 反 向 传播 算法 最 小 化 儿 (Ci ) 。 

探索 包含 的 动量 项 常数 " 怎样 影响 学 习 过 程 。 特 别 注 意 使 用 收敛 所 需 的 步 数 。 

4.6 在 4.7 节 中 我 们 给 出 了 多 层 感 知 器 分 类 器 ( 非 线 性 性 使 用 logistic 函数 ) 属 性 的 定性 
分 析 ， 它 的 输出 提供 后 验 分 类 概率 的 估计 。 这 个 性 质 假设 训练 集 忌 够 大 ， 并 且 用 来 训练 网 络 
的 反 向 传播 算法 不 会 在 一 个 局 部 最 小 上 被 阻塞 。 补 充 这 个 性 质 的 数学 细节 。 

4.7 从 式 (4.10) 所 定义 的 代价 函数 开始 ， 推 导 式 (4.72) 的 最 小 化 解 和 式 (4.73) 定 义 的 代 























价 本 数 的 最 小 值 。 
4.8 式 (4.81) 到 (4.83) 定 义 图 4-18 中 的 多 层 感知 器 实现 的 带 近 函数 P(w,x) 的 偏 导数 ， 
根据 如 下 的 很 设 推导 这 些 公式 : 
(四 代价 画 数 : 
&(m = 二 Cd -PCwa 了 
(神经 元 7 的 界 出 ; 


姑 三 名 站) 
其 中 风 是 从 神经 元 ;到 神经 心 ) 的 突 触 权 值 ，7 是 神经 元 ; 的 输出 ; 
(9 非 线 任性; 





1 
9() = TDC 可 


交叉 确认 

4.9 在 第 2 章 所 讨论 的 结构 风险 最 小 化 的 八 究 中 ， 也 许 会 说 交叉 确认 是 其 中 的 一 种 情 
形 。 描 述 一 个 使 用 交叉 确认 的 神经 网 络 的 例子 ， 支 持 这 个 说 法 。 

4.10 在 多 重 交叉 确认 中 并 没有 如 坚持 到 底 方 法 中 那样 在 训练 数据 和 测试 (确认 ) 数 据 之 
间 有 明确 的 区 分 。 使 用 多 重 交 叉 傅 认可 能 产生 有 偏 估计 吗 ? 证 明 你 的 答案 。 
网 络 修剪 技术 

4.11 模型 选择 的 统计 学 准则 ， 如 Rissanen 最 小 描述 长 度 (MDL) 准 则 和 Akaike 的 信息 论 
原则 (AIC)， 共 用 一 个 常用 的 组 成 形式 : 

(模型 复杂 度 准 则 ) = (对 数 似 然 郴 数 ) + ( 俩 型 复杂 度 惩罚 ) 
讨论 用 于 网 络 修剪 的 权 值 衰减 和 权 值 消除 方法 是 如 何 符合 这 种 形式 的 。 
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4.12 (3a) 推 导 式 (4.105) 给 出 的 显著 性 3 的 公式 ， 
(9b) 假 设 多 层 感 知 器 的 均 方 说 养 对 自身 权 值 的 Hessian 矩阵 可 以 被 对 角 阵 
开 = diagL ia ja pmr] 

逼近 ， 其 中 到 是 网 络 权 值 的 总 数 。 决 定 网 络 中 权 值 ww 的 显著 性 % 。 
反 向 传 摄 学 习 的 加 速 收 剑 

4.13 delta-bardelia 学 习 规 则 (Jaechs,1988) 代 表 反 向 传播 算法 的 一 个 修改 形式 ， 它 基于 
4.17 节 中 所 述 的 启发 。 在 这 个 规则 中 ， 网 络 中 的 每 个 突 般 权 值 被 指定 一 个 自身 的 学 习 率 参 
数 。 代 价 函 数 及 mn) 国 而 以 相应 的 方式 中 被 修改 。 换 名 话说， 尽管 有 (Cn) 在 数学 上 是 相似 于 
式 (4.2) 的 代价 函数 (n) 的 .但 是 新 的 代价 孜 数 B(n) 的 参数 空间 包括 不 同 的 学 习 率 。 

(a) 推 导 偏 导数 3E(m)/am (ma) 的 表达 式 ， 其 中 大 (an ) 为 相应 于 罕 触 权 值 ze (mn) 的 学 习 率 


























(b) 因 此 ， 说 明基 于 (a) 的 结果 的 学 习 率 参数 调整 是 完全 符合 4.17 节 中 启发 3 和 启发 4 


二 阶 最 优化 方法 
4.14 在 式 (4.39) 所 述 的 权 值 修改 中 动量 项 的 使 用 可 以 被 认为 是 共 琶 梯度 方法 的 近似 
〈Battii ,1992)。 讨 论 这 种 说 法 的 正确 性 。 
4.15 以 式 (4.133) 中 Ba) 的 公式 开始 ， 推 导 Hesteness-Stiefel 公式 
Rn) = rrCn)(rfa) -ra -1D) 
sm-lira-1) 
其 中 Sa) 是 方向 向量 ，r(n) 是 共 葬 梯度 方法 中 的 余 项 。 利 用 这 个 结果 ， 推 导 臣 (4.134) 中 的 
Polak-Ribikre 公式 和 式 (4.135) 中 的 了 etcher-Reeves 公式 。 




















计算 机 实验 
4,16 研究 使 用 sigmoid 非 线性 师 数 的 反 向 传播 学 习 方法 获得 一 对 一 瑞 射 ， 描述 如 下 : 
Los 二， 1<xs1lo0 
2.(x) = iogox， 1<x 反 10 
3.7x)= emp( 一 x)， 1<x 和 10 
4.Fxz)=sinr， 0<x 达 亚 


了 
对 每 个 映射 ， 完 成 如 下 工作 : 
(a) 建 立 两 个 数据 集 ， 一 个 用 于 网 络 训练 ， 另 一 个 用 于 测试 。 
(b) 假 设 具有 单个 隐藏 居 ， 利 用 训练 数据 集 计算 网 络 的 突 触 权 值 。 
《c) 通 过 使 用 测试 数据 求 网 络 计算 精度 的 值 。 
使 用 单个 隐藏 层 ， 但 隐藏 神经 元 数目 可 变 ， 研 究 网 络 性 能 是 如 何 受 隐藏 层 大 小 变化 影响 


























的 。 














4.17 表 4-9 的 数据 表示 澳大利亚 野兔 眼睛 眠 状 体 的 重 晤 为 年 龄 的 函数 。 没 有 简单 的 解 
析 晃 数 可 以 精确 插值 这 些 数据 ， 因 为 我 们 并 没有 一 个 单 值 函数 。 相 反 ， 利 用 一 个 负 指 数 我 们 
有 这 个 数据 集 的 一 个 非 线 性 最 小 平方 模型 ， 表 未 为 
y = 233.846(1 - exp(- 0.006042x)) + 上 
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其 中 = 是 误差 项 。 

利用 反 向 传播 算法 ， 设 计 一 个 多 层 感 知 器 ， 它 能 够 为 这 个 数据 集 提供 一 个 非 线性 最 小 平方 逼 
近 。 与 前 述 的 最 小 平方 模型 比较 你 的 结果 。 

表 4-9 站 大 利 亚 野兔 眼 睛 晶状体 重量 

















年 龄 重 医 年 龄 重量 年 龄 重量 年 龄 重量 

《天 ) 《mg》 《天 ) 《mg) 《大 ) 《mg) 《大 ) Ce) 
1 2 全 和 由 6 2 D418 38 208 .入 
了 22.75 到 .5 218 173.03 347 188.38 
]5 22.3 8S 105 219 173.54 354 189.7 
18 31.25 纺 101.7 224 178.86 357 195.31 
人 4 下 9 102.9 225 107.68 375 200.@ 
2 40.5 o7 10 227 173.73 394 224. 红 
37 蚤 .站 9 104.3 232 1S9.98 513 203.3 
37 在 .8 125 134.9 232 161.29 535 209.7 
妈 32.03 142 130.68 237 187.07 554 233.9 
0 6, 和 142 140.58 246 176.13 591 234.7 
50 61.13 147 155.3 258 183.4 6G48 244.3 
60 81 147 152.2 276 186.26 660 231 
和 73.09 150 144.5 285 189.66 705 242.4 
忆 7.m9 159 142.15 300 186.09 723 230.7 
后 79.51 165 139.81 301 186.7 7565 242.57 
的 .3] 183 153.22 305 ]186.8 768 232.12 
了 31.9 坟 145.72 312 195.1 860 246.7 


了 5 86.1 ] 冯 161 .1 317 2Z16.41 








= 扣 
第 5 章 径 向 基 六 数 网 络 
5.1 简介 
设计 一 个 监督 神经 网 络 可 以 有 多 种 方法 。 前 面 一 章 中 所 描述 的 反 疝 传播 算法 可 以 看 作 是 
递归 技术 的 应 用 ,这 种 技术 在 统计 学 中 通称 为 随机 逼近 。 在 本 章 中 我 们 将 神经 网 络 的 设计 看 

















作 是 一 个 高 维 空间 中 的 曲线 拟 合 (逼近 ) 问 题 ， 从 而 采用 完全 不 同 的 方法 进行 设计 。 按 照 这 种 


观点 ， 学 习 等 价 于 在 多 维 空间 中 寻找 一 个 能 够 最 佳 拟 合 j 


ll 练 数据 的 曲 画 ， 这 里 的 “最 佳 拟 合 ” 





准则 是 在 某 种 统计 意义 上 的 最 佳 拟 合 。 因 此 ， 泛 化 等 价 了 


插值 。 上 述 观点 是 径 向 基 函 数 方法 的 出 发 点 ， 径 向 基 蚌 数 方法 在 某 种 程度 上 利用 





中 传统 的 严格 插值 法 的 研 
数 集 在 输入 模式 (向 量 ) 扩 展 至 隐藏 空间 时 为 
就 被 称 为 径 向 基 函 教 上 。 径 向 基 函 数 首先 是 在 实 多 变量 所 
其 工作 在 Powell(1985) 中 综述 ， 而 较 新 的 工作 则 在 Light(l 
值 分 析 研究 中 的 一 个 主要 领域 。 
最 基本 : 


f 究 成 果 。 在 神经 网 络 的 背景 下 ， 








其 构建 了 一 个 任意 的 " 基 ” 


影 式 的 径 向 基 琐 数 ( RB 了 网 络 的 构成 包括 三 层 ， 其 中 每 一 层 都 有 着 完全 不 





上 利用 这 个 多 维 曲面 对 测试 数据 进行 
了 多 维 空间 
隐藏 单元 提供 一 个 “函数 " 集 ， 该 画 
这 个 琢 数 集中 的 冰 数 
引信 的 。 这 方面 的 早 
径 向 基 天 数 是 目前 数 

















值 问题 的 解 
992b) 中 综述 。 





同 


的 作 











。 输 入 层 由 一 些 源 点 (感知 单元 ) 组 成 ， 它 们 将 网 络 与 人 
仅 有 的 一 个 隐 层 ， 它 的 作用 是 从 输入 空间 到 隐藏 空间 
隐 荐 空间 有 较 高 的 维 数 。 输 出 层 是 线性 的 ， 它 为 作用 




















其 论文。 根据 这 篇 文章 ， 一 个 模式 分 类 问题 如 果 映 射 


之 间 进 行 非 线性 变换 ， 在 大 多 数 情况 下 
F 输 入 层 的 激活 模式 (信和 号) 提供 响应 。 
关于 非 线 人 性 变换 之 后 跟随 线 件 变换 的 理论 基础 其 数学 依据 可 以 追溯 到 
到 一 











界 环 境 连结 起 来 。 第 二 展 是 网 络 中 








Cover(1965 ) 的 一 篇 时 
个 高 维 空间 将 会 比 映射 到 一 个 低 维 


空间 更 可 能 是 线性 可 分 的 ， 这 就 是 径 问 基 郴 数 网 络 的 隐藏 空间 的 维 数 通常 都 较 高 的 原因 。 还 








有 另外 一 个 重要 的 原 
着 直接 的 联系 (Mhaskar 


本 章 的 组 织 
本 章 的 主要 部 分 组 织 如 下 。 我们 将 有 关 构 建 RBF 

















， 就 是 隐藏 空间 的 维 数 与 网 络 能 否 逼 近 一 个 光 消 的 输入 - 输出 映射 有 
,1996; Niyogi and Girosi,1996); 隐藏 空间 的 维 数 越 高 ， 逼 近 就 越 精 确 。 


络 的 基础 放 在 5.2 节 和 5.4 节 。 分 两 





个 步骤 来 做 到 这 一 点 。 第 一 步 ， 描 述 Cover 关于 模式 可 分 | 
定理 的 应 用 。 在 5.3 节 将 考虑 插值 问题 及 其 他 与 RBF 网 
在 得 到 RBF 网 络 如 何 工作 的 一 个 了 解 之 后 ， 我 们 将 











5.4 节 至 5.9 节 。 在 5.4 节 中 讨论 监督 学 习 是 一 种 不 适 定 的 超 曲 画 杂 
E 则 化 理论 及 其 在 RBF 网 络 中 的 应 用 。 这 个 理论 将 很 自然 地 导出 在 
FE 则 化 网 络 的 公式 。 这 类 RBF 赔 络 对 计算 的 要 求 很 高 。 为 
5.7 节 将 讨论 一 个 被 称 为 广义 RBF 网 络 的 改进 正则 化 网 络 。 在 5.8 节 
， 并 且 展 示 RBF 网 络 是 如 何 解 决 这 个 问题 的 。 在 5.9 节 将 描述 一 种 用 于 选择 正则 化 参数 恰 





节 | 
5.6 节 中 了 


将 详细 论述 Tikhonov 的 了 








题 
当 





值 的 广义 交叉 确认 方法 ， 从 而 完成 正 列 化 理论 的 研究 。 





的 定理 ;将 利用 XOR 问题 来 并 释 该 


络 的 关系 。 


进入 本 章 的 第 二 部 分 ， 这 部 分 包括 
建 问题 的 观点 。 在 5.5 


了 减少 计算 复杂 人 性， 在 
我 们 将 重新 讨论 XOR 问 
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5.10 他 讨 论 RBF 网 络 的 通 近 性 质 。5.11 节 将 RBF 网 络 与 多 层 感知 将 模型 作 比 较 ， 这 两 
种 网 络 都 是 分 层 前 侦 网 络 的 重要 例子 。 

在 3.12 节 讨 论 核 回归 估计 ， 它 是 关于 RBF 网 络 的 另 - “种 疯 点 的 基础 。 我 们 将 大 量 处 理 
密度 估计 和 核 辐 归 理 论 的 统计 学 文献 和 RBF 网 络 联系 起 来 。 

5.13 节 和 5.14 节 是 本 章 的 最 后 … 部 分 。 在 5.13 节 提 出 设计 RBF 网 络 的 四 个 不 同 的 学 习 
策略 。 在 5.14 节 描 述 一 个 用 RBF 网 络 进行 模式 分 类 的 计算 机 试验 。 

在 5.15 闻 以 某 些 关于 RBF 网 络 的 最 后 的 思想 作为 本 章 的 结束 。 


5.2 模式 可 分 性 的 Cover 定理 


当 用 径 疝 基 函 数 神经 网 络 来 解决 一 个 复 条 的 模式 分 类 任务 时 ， 问 题 的 基本 解决 可 以 通过 
用 非 线 性 方式 将 其 变换 到 一 个 高 维 空间 。 它 的 潜在 合理 人 性 来 白 模式 可 分 性 的 Cover 定理 ,该 
定理 可 以 定性 地 表述 如 下 (Cover,1965) : 

特 复杂 的 模式 分 类 问题 非 线性 地 投射 到 高 维 空间 将 比 授 射 到 低 维 空间 更 可 能 是 线性 可 分 
的 。 

从 第 3 章 对 单 层 感知 器 的 研究 中 知道 ， 一 旺 横 式 具 有 线性 可 分 性 ， 则 相应 的 分 类 问题 相对 而 
言 就 更 容易 解决 。 因 此 ， 我 们 通过 研究 模式 的 可 分 人 狂 可 以 深入 了 解 RBF 网 络 作为 模式 分 类 
器 是 如 何 工作 的 。 

考虑 一 族 曲面 ， 每 一 个 曲面 都 自然 地 将 输入 空间 自然 地 分 成 两 个 区 域 。 用 % 代 表 六 个 模 

式 (向 量 )m ， 允 ，…，xw 的 集合 ， 其 中 每 一 个 模式 都 分 属于 两 个 类 %， 和 和光 ; 中 的 一 类 。 如 果 
在 这 一 族 曲 而 中 存在 一 个 昌 面 能 够 将 分 别 属于 %， 和 史 ; 的 这 些 点 分 成 两 部 分 ， 我 们 就 称 这 些 
点 的 二 分 (二 元 划分 ) 关 于 这 族 曲 面 是 可 分 的 。 对 于 每 一 个 模式 xE8 ， 定 义 一 个 由 一 组 实 值 
函数 jg (01i= 1，2，…，mj 组 成 的 向 量 ， 表 示 如 下 : 
(00 = [oO 和) en (x)]7 (5.1) 
假设 模式 x 是 mo 维 输入 空间 的 一 个 向 量 ， 则 疝 量 p(z) 将 mo 维 输入 空间 的 点 映射 到 新 的 m， 
维 空间 揭 相 应 的 点 上 。 我 们 将 p,(x) 称 为 隐藏 曙 数 ， 因 为 它 与 前 锁 神 经 网 络 中 的 隐藏 单元 起 
考 同 样 的 作用 。 相 应 地 ， 直 隐藏 函数 集合 fp; (xz)1m 所 生成 的 空间 被 称 为 隆 藏 空间 或 者 大 征 
空间 。 

我 们 称 一 个 关于 兆 的 二 分 |& ,2 | 是 9 可 分 的 ， 如 果 存 在 一 个 mi 维 的 向 基 mw 司 得 
《Cover, 1965 ) 






























































wrp(x) > 0， XE & 








wWrp(xz) < 0， 和 红 人 人) 
由 方程 
WwWr(x) = 0 
定义 的 超 平面 描述 p 空间 (也 就 是 隐藏 空间 ) 中 的 分 离 曲面 。 这 个 超 平面 的 逆 像 ， 即 
xiw79(x) = 0 (5.3) 
定义 输入 空间 中 的 分 离 曲面 。 


考虑 一 个 利用 r 次 模式 向 量 坐标 乘积 的 线性 组 合 实现 的 一 个 自然 类 映射 。 与 此 种 映射 相 
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对 应 的 分 离 曲面 被 称 为 " 阶 有 理 得。 一 个 mw 维 空间 的 > 阶 有 理 簇 可 描述 为 输入 问 基 x 的 坐 
标的 一 个 次 齐 次 方程 ， 表 示 为 


忆 


0 有 
其 中 ”% 是 输入 向 量 x 的 第 i 个 元 素 。 为 了 用 齐 次 形式 来 表达 方程 ， 将 z 的 值 置 为 单位 值 1。 
x 中 项 x% 的 r 阶 乘积 就 是 xx。 …x% ， 被 称 为 单项 式 。 对 于 一 个 mo 维 的 输入 空间 在 式 (5.4) 
中 一 共有 


2 (5.4) 


和 








(mo -Fr) 
0Trl 
个 单项 式 。 式 3.4) 所 描述 的 分 离 曲面 的 类 型 的 例子 有 超 平 而 (一 阶 有 理 和 能)、 二 次 遇 面 (二 阶 
有 有 理 徐 ) 和 超 球 面 ( 带 有 某 种 线性 限制 系数 的 二 次 曲 钠 ) 等 。 这 些 例 子 的 说 明 见 图 5-1， 该 
说 明 在 二 维 输入 空间 中 的 五 点 的 构 形 。 通 常情 况 下 ， 线 性 可 分 性 蜡 示 着 球 而 可 分 性 ， 而 球面 
可 分 性 义 暗示 着 二 次 可 分 性 ; 然而 反之 不 一 定 成 立 。 
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图 5-1 一 维 平 面 上 的 5 个 点 的 不 同 集合 的 - 可 分 的 一 分 的 3 个 例子 ， 
可 线性 可 分 的 二 分 “ 占 球 形 可 分 的 二 分 ec) 一 次 可 分 的 二 分 
在 一 个 概率 实验 中 ， 一 个 模式 集合 的 可 分 性 成 为 一 个 依赖 于 选择 的 二 分 以 及 输入 空间 中 
模式 的 分 布 的 随机 事件 。 假 设 激活 模式 凡 ， 亚 ，…，xv 是 根据 输入 空间 中 的 概率 特 狂 而 独 
立 选 取 的 。 同 时 假设 所 有 的 关于 % = ix; 所 ,的 二 分 都 是 等 可 能 的 。 令 P( N, mi, ) 表 示 某 一 随 
机 选取 的 二 分 是 p 可 分 的 概率 ， 这 里 被 选中 的 分 离 曲面 的 类 具有 mm 维 的 白 由 度 。 根 据 Cover 
{1965)， 我 们 可 以 将 P(w,m, ) 表 述 为 


PNm) = 人 二) 六 (、 ]) (5.5) 


这 里 ,包括 丸 - 1 和 mm 的 二 项 式 系数 定义 如 下 : 
人 } 1 
= mm 


丽 : 

















式 (5.5) 体现 Cover 的 可 分 性 定理 对 于 随机 模式 的 本 质 。 它 说 明 累 计 二 项 概率 分 布 ， 相 当 
于 扼 (N - D) 次 硬币 有 (mi - 1) 次 或 更 少 次 头像 向 上 的 概率 。 

尽管 在 式 (5.5) 的 推导 中 遇见 的 隆 藏 单 元 曲面 是 一 个 多 项 式 的 形式 ， 从 而 与 我 们 通常 在 
径 向 基本 数 网 络 中 用 到 的 有 所 不 同 ， 但 是 该 式 的 核心 内 容 却 具 有 普遍 的 适用 性 。 特 别 地 ， 若 
隐藏 空间 的 维 数 m, 越 高 ， 则 概率 P(w,m, ) 就 越 趋向 于 1。 总 之 ， 关 于 模式 可 分 性 的 Cover 
定理 主要 包含 下 面 两 个 基本 部 分 : 

1. 电 p(Cx) 定 义 的 隐藏 函数 的 非 线性 构成 ， 这 里 x 必 输 和 向量， 旦 = 1，2，…，ma。 

2. 高 维 数 的 括 藏 空间 ， 这 里 的 高 维 数 是 相对 于 输入 空间 而 言 的 。 维 数 由 赋 给 mi; 的 值 
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并 了 半 





( 即 隐藏 单元 的 个 数 ) 决定 。 


如 前 所 述 ， 通 常 将 一 个 复杂 的 模式 分 类 问题 非 线性 地 投射 到 沿 维 数 空间 将 会 比 投 射 到 低 





维 数 空间 更 可 能 是 线性 可 分 的 。 但 是 需 鉴 强调 的 是 ， 有 时 使 用 非 线性 映射 ( 即 第 1 部 分 ) 就 足 








够 导致 线性 可 分 ， 而 且 不 必 升 高 隐藏 单元 空间 维 数 ， 如 下 面 例子 所 说 明 的 孝 样 。 
例 $.1 XOR 问题 为 了 说 明 模式 的 p 可 分 性 思想 的 意义 ， 考 虑 一 个 简单 却 又 十 分 重要 
有 四 个 二 维 输 入 空间 上 的 点 (模式 ): (1,1)，(0,1)，(0,0) 和 





的 XOR 问题 。 在 XOR 问题 


(1,0)， 如 图 $-2a。 要 求 建立 一 个 模式 分 类 器 产生 二 值 输出 响应 ， 共 叶 





和 点 (1,1) 或 (0,0) 对 应 


于 输出 0， 点 (1,0) 或 (0,1) 对 应 于 输出 1。 因 此 在 输 入 空间 中 依 Hamming 距离 最 近 的 点 映射 


到 在 输出 空间 中 最 大 分 离 的 区 域 。 
Ganss 隐藏 函数 如 下 : 


Of(x) 


定义 - 


射 到 9 - 吃 
线性 可 分 的 。 
XOR 问题 就 迎刃而解 了 。 





各 (RD) 
这 样 我 们 可 以 得 到 以 上 四 个 点 作为 输入 时 的 结果 ， 如 表 5-1 所 示 。 如 
平面 上 。 这 里 我 们 可 以 看 到 输入 (0,1)，(1,0) 与 剩 下 的 两 个 输入 (1,1)，(0,0) 是 
然后 ， 我 们 将 pxz) 和 呈 (x) 作 为 一 个 线性 分 类 器 如 感知 器 模型 的 输入 ， 则 





| 昌 ， 


:> 
ee 


和 = [1,1] 
所 = [0.0] 








5-2b， 答 和 模式 被 映 

















08 、、 
、\、 
mm 06 科 、 决 策 边界 
上 、、 
414 上 和 
外 、、 
上 (0 和 、、 
02 上 避 by 尽 
(0D 4.D 和 et0.0) 
自 外 『 
1 LU LU L 
(0 9 0 02 04 10.6 08 140 1.2 
时 鱼 内 
3 tb 
图 5-2 
aXOR 问题 的 4 个 杭 式 b) 决 策 图 
表 51f 用 于 例 5.1 的 XOR 问题 的 隐藏 函数 设置 
输入 模式 第 一 隐藏 函 教 mn (x) 第 二 隐藏 晒 数 m(x) 
(DJ) 1 0.353 
(0.1 0.3678 0.3678 
(0.0) 0.1353 1 
人 9) 0.3678 0,.3678 








和 经 碳 天 声 惠 网 移 737 





在 这 个 例子 中 隐藏 空间 的 维 数 相对 于 输入 空间 并 没有 增加 。 也 就 是 说 ， 以 Causs 函数 作 
为 非 线性 的 隐藏 画 数 ， 足 以 将 XOR 问题 转化 为 一 个 线性 可 分 问题 。 


曲面 的 分 高 能 力 


式 (5.5) 对 子 在 多 维 空间 中 随机 指定 输入 模式 线性 可 分 的 期 望 最 大 数目 有 重要 意义 。 为 
了 研究 这 个 问题 ， 如 前 所 述 将 古 ， 加 ，…，xw 视 为 一 个 随机 模式 (向 量 ) 序 列 。 令 六 为 一 个 
短 机 变量 ， 定 义 为 该 序列 为 可 分 时 的 最 大 整数 ， 这 里 站 具有 mi 的 自由 度 。 于 旦 由 式 
(5.5) 我 们 可 以 导出 当 六 = ” 时 的 概率 
Poob(w = m) = P(nim) -Ptn+lm) = (有 他 -= 002 (05.6) 
为 了 解释 上 述 结 果 ， 我 们 回想 一 下 负 二 项 分 布 的 定义 。 该 分 布 相当 子 在 一 组 重复 的 
Bemouifi 实验 中 有 r 次 成 功 、 大 次 失败 且 最 后 一 次 是 成 功 的 概率 。 在 这 种 概率 实验 中 ， 每 一 
次 实验 只 有 两 种 结果 ， 不 是 成 功 就 是 拓 败 ， 并 县 成 功 和 失败 的 概率 在 整 组 实验 中 都 是 相同 
的 。 令 p 代表 成 功 的 概率 ，4 代表 失败 的 概率 ，P + 9 = 1。 负 二 项 分 布 定义 (Feller, ]968 ) 如 
下 
































Ar 人 


在 P=g=152( 即 成 劝 和 失败 具有 相等 的 概率 ) 上 且 上 + r= 的 特殊 情况 下 ， 上 述 的 负 一 项 分 布 


1 1Y"1P 一 1 
用 有 一 4 二 ) = {( 动 { )， 一 0,1,2，… 
根据 上 述 定义 ， 我 们 现在 可 以 看 出 由 式 (5.6) 所 表示 的 结果 正 是 负 二 项 分 布 ， 只 不 过 右 移 了 
mm 个 单位 昌 具有 参数 mm 和 2。 这样，N 相当 子 在 一 纽 抛 硬币 的 实验 中 出 现 第 m, 次 失败 
的 "等待 时 间 ”。 随 机 变量 的 期 望 和 中 位 数 分 别 为 
刁 [N] = 2mu 《5.7) 

和 Median[ 六 ] = 2m (5.8) 
此 ， 我们 可 以 得 到 Cover 定理 的 一 个 推论 ， 用 著名 的 渐 近 结果 的 形式 可 表述 如 下 : 

一 组 随机 指定 的 输入 模式 (人 向量) 的 某 合 在 mi 维 空间 中 线性 可 分 ， 它 的 元 素数 月 的 最 大 
期 望 等 于 2mu 。 

该 结果 表明 ，2m, 是 对 一 族 具 有 m, 维 白 由 度 的 决策 归 面 的 分 离 能 力 的 自然 定义 。 在 一 
定 程度 上 ， 一 个 虹 面 的 分 离 能 力 与 第 2 章 讨 论 的 VC 维 数 的 概念 有 着 紧密 的 联系 。 
5.3 插值 问题 


从 关于 模式 可 分 性 的 Cover 定理 得 到 的 重要 种 想 是 在 解决 一 个 非 线性 可 分 的 模式 分 类 问 
题 时 ， 如 果 将 输入 空间 映 射 到 一 个 新 的 维 数 足 够 高 的 空间 去 ， 将 会 有 助 于 问题 的 解决 。 基 本 
说 来 用 一 个 非 线性 变换 将 一 个 非 线性 可 分 的 分 类 问题 转变 为 一 个 线性 可 分 问题 。 同 样 地 ， 我 
们 可 以 用 非 线 性 变换 将 一 个 复杂 的 非 线 性 滤波 问题 转化 为 一 个 较 简单 的 线 任 滤波 问题 。 
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现在 考虑 一 个 由 输入 层 、 一 个 中 间 层 和 只 有 一 个 输出 单元 的 输出 层 组 成 的 前 馈 网 络 。 我 
们 选择 只 有 一 个 输出 单元 的 输出 层 的 目的 主要 是 为 了 简化 说 明 又 不 失 一 般 性 。 设 计 这 个 网 络 
实现 从 答 入 空间 到 隐 匮 室 间 的 一 个 非 线性 映射， 随后 从 隐藏 空间 到 输出 空间 则 是 线性 映射 。 

令 mo 为 输入 空间 的 维 数 。 这 样 从 总 体 上 看 这 个 网 络 就 相当 于 一 个 从 mo 维 输入 空间 到 一 维 
输出 空间 的 映射 ， 可 以 写成 如 下 形式 : 








3 园 m 一 轩 ! (5.9) 
我 们 可 以 将 映射 ， 视 为 一 个 超 曲 面 (图 )FCB"” ， 就 好 像 我 们 可 以 将 一 个 最 基本 的 觅 
射 5: 轩 一 骨 ， 其 中 5(z)= 吧 ， 视 为 辽 空间 中 的 一 条 抛物 线 一 样 。 超 曲面 工作 为 输 和 人 的 画 
数 是 输出 空间 的 多 维 曲面 。 在 实际 情况 下 ， 曲 面 T 是 未 知 的 ， 并 且 训 练 数据 中 通常 带 有 吧 
声 。 学 习 中 的 训练 阶段 和 泛 化 阶段 可 叙述 如 下 
， 训练 阶段 由 面 开 的 拟 侣 过程 的 最 优化 构成， 它 根 据 以 输入 - 输出 样本 (模式 ) 形 式 
呈现 给 网 络 的 已 知 数据 进行 。 
，* 泛 化 阶段 的 任务 就 是 在 数据 点 之 问 进行 插值 ， 插 值 是 在 真实 曲面 下 的 最 佳 酒 近 的 拟 
合 过 程 产生 的 约 训 曲面 上 进行 的 。 
这 样 我 们 将 引出 其 有 悠久 历史 的 高 维 空间 多 变量 插值 理论 (Davis,1963 )。 从 严格 意义 上 说 ， 
插值 问题 可 以 叙述 如 下 : 
给 定 一 个 包 售 六 个 厌 同 点 的 全 合 避 E 民 mi = 1,2,…，, 史 ji 和 相应 的 六 个 实数 的 一 个 集 
含 | 四 E 网 1= 12, 放 |， 寻 找 一 个 画 数 严 ， 轴 "一 区 ! 满 尽 下 述 播 值 条 件 : 
FE ) = 丰 ， = 2 《5.107 


于 这 里 所 述 的 严格 搬 值 来 说 ， 插 人 曲面 ( 即 函 数 环 ) 必 须 通 过 所 有 的 训练 数据 点 。 
径 向 基 画 数 (RBF) 技 术 就 是 要 选择 一 个 函数 挛 具 有 下 列 形 式 (Powell, 1988 ) ， 


天 (x) = 2 Xi|) (5.11》 

其 中 19 和 x- 天 | =1,2… 人 各 隐 直 二 作家 的 集合 称 为 径 向 基 函 
数 ; | ' | 表示 范 数 ， 道 常 是 欧 儿 里 德 范 数 。 已 知 数据 x E 民 " ，;i = 1，2，…，N 是 径 向 基 
函数 的 中 心 。 
将 (5.10) 的 捕 值 条 件 代 人 式 (5.11) 中 ， 我 们 可 以 得 到 一 组 关于 未 知 系数 ( 权 值 ) 的 展开 

ja 上 的 线性 方程 组 : 
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多 | 9 px] za 台 
和 和 和 空 | -| 于 (5.12) 
vt mm oow dv 
其 中 加 = 多 | 和 -下 (7 站 =1，2，…， 下 (5.13) 
令 Q=[d， 中 [io 和 av] 


上 式 中 的 wx1l 向 量 a 和 mw 分别 表示 期 望 输出 向 量 和 连结 权 值 向 量 ， 其 中 w 表示 训练 样本 
的 长 度 。 令 下 表示 元 素 为 mr 的 Nx 六 阶 的 矩阵 ; 
王 = ip 1 = 12N 《5.14) 
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我 们 称 该 矩阵 为 插值 矩阵 。 于 是 式 (5.12) 可 以 写成 紧凑 形式 

GDw = x ($.15) 
假设 @ 为 非 奇 措 矩 阵 ， 因 此 而 存在 四 。 这 样 我 们 就 可 以 从 式 (5.15) 中 解 出 权 值 向 量 w， 表 
示 为 

















到 = 四 x (5.16) 
问题 的 关键 是 : 我 们 怎么 能 保证 搬 值 矩阵 中 是 非 奇异 的 ? 可 以 证 明 ， 对 于 大 量 径 向 基 琐 数 
来 说 在 某 种 条 件 下 上 述 问题 的 答案 可 以 由 下 耐 的 重要 定理 给 出 。 


Micchelli 定理 








Micchelii(1986) 证 明了 如 下 和 定理: 

如 果 |x, | 已 是 民 m 中 六 个 互 不 相同 的 点 的 集合 ， 则 Nx 及 阶 的 播 值 短 阵 三 ( 第 六 个 元 素 
是 和 =g9|g 一 x, | 是非 奇异 的 。 
有 大 量 的 径 向 基 巩 数 满足 Micchelli 定理 ， 包 括 下 面 三 个 在 径 向 基 函 数 网 络 中 有 重要 地 位 的 函 
数 ; 

1, 多 二 次 (Multiquadrics) 函数 : 


和 (Fr) = 《天 + c>orE 民 《5.17) 
2, 道 多 二 次 (Inverse multiquadrics) 函数: 
中 ( = Te c >0Dre 民 (5.18) 
3.Gauss 画 数 ; 
2 
er) = op( -未 ) > orE 肯 (5.19) 


多 二 次 函数 和 逆 多 二 次 函数 都 应 归功 于 Hardy(1971)。 

为 了 使 式 (5.17) 至 (3.19) 所 示 的 径 向 基 函 数 是 非 奇 异 的 ， 必 须 使 所 有 的 输 人 点 入 名 也 
不 相同 。 这 就 是 使 插值 窍 阵 里 非 奇异 的 全 部 要 求 ， 与 所 给 样本 的 长 度 W 和 向 量 ( 点 )xi; 的 维 
数 mo 无 关 。 

式 (5.18) 的 逆 多 二 次 冰 数 和 式 (5.19) 的 Gauss 函数 具有 一 个 共同 的 性质: 它们 都 是 局 彰 
化 的 函数， 国 为 当 r 一 汪 时 ，9(r) 一 0。 以 上 而 两 个 函数 作为 径 向 基 函 数 所 组 成 的 插值 矩阵 中 
都 是 正定 的 。 与 此 相反 ， 而 由 式 (5.17) 所 定义 的 多 二 次 函数 是 非 局 部 性 函数 ， 因 为 当 ra 
时 ，?(r) 是 无 界 的 ; 与 其 相对 应 的 插值 矩阵 中 有 (W- 1) 个 负 的 特征 值 ， 只 有 一 个 正 的 特征 
值 ， 所 以 不 是 正定 的 (Micchelli 1986) 。 但 值得 注意 的 是 在 Hardy 的 多 二 次 函数 基础 上 建立 的 
捅 值 矩 阵 中 却 是 非 奇异 的 ， 因 此 适合 在 RBF 网 络 设计 中 应 用 。 
一 个 更 加 值得 注意 的 是 径 向 基 函 数 者 是 无 限 增长 的 ， 例 如 多 二 次 函数 ， 与 其 他 产生 正定 
插值 矩阵 的 雪 数 相 比 ， 它 能 以 更 高 的 精度 逼近 一 个 光滑 的 输入 - 输出 上 映射 。Powellf1988 ) 守 
论 这 个 令 人 惊奇 的 结果 。 


5.4 作为 不 适 定 超 曲面 重建 问题 的 监督 学 习 
在 某 些 任务 中 由 于 对 新 数据 具有 较 差 的 泛 化 性 能 ， 这 样 利用 上 述 严格 的 插值 方法 来 训练 
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彩 了 湛 





一 个 RBF 网 络 并 不 是 一 个 好 办 法 。 这 是 
的 物理 过 程 的 自由 度 ， 并 且 我 们 
就 为 超 定 的 。 结 果 神 经 网 络 就 会 
个 错误 的 

为 了 进一步 加 深 对 















































为 如 昧 训练 样 本 中 的 数据 点 的 数目 远 远大 于 固有 
民 制 径 向 基 画 数 的 个 数 与 数据 点 的 个 数 足 相同 的 ， 这 样 问题 
为 输入 数据 的 特性 (idiosyncrasy ) 或 者 噪声 干扰 而 拟 合 到 一 
面 ， 从 而 导致 泛 化 性 能 降低 (Broomhead and Lowe,1988 ) 。 

过 拟 合 问题 的 理解 并 且 如 何 克 服 这 个 问题 ， 我 们 可 以 先 回 到 这 样 观 





点 : 训练 神经 网 络 使 其 
曲面 ( 即 多 维 映射 ) 使 其 
稀 朴 的 数据 点 的 超 曲 面 重 建 问题 - 

















能 够 根据 输入 模式 找到 相应 的 输出 模式 ， 它 的 设计 相当 于 学 习 一 个 超 
能 够 根据 输 和 人 确定 输出 。 换 句 话说， 学 习 可 以 被 视 为 给 定 一 组 可 能 是 





根据 Keller(1976) 和 Kirsch(1996)， 如 果 有 相关 两 个 问题 ， 系 统 地 解决 其 中 的 任意 一 个 问 
题 都 必须 部 分 地 或 者 全 部 地 知道 关于 另 ，' 个 问题 的 知识 ， 那 么 我 们 就 称 这 两 个 问题 是 互 道 


的 。 通 常 我 们 发 现 其 中 一 个 问题 比 另 一 个 问题 研究 得 持 ， 并 1 


且 可 能 研究 得 更 透彻 ， 那 么 这 个 


问题 就 被 称 为 正 问题 (direet pmblem) ， 而 另 一 个 问题 就 被 称 为 着 问题 (inverse problem)。 然 而 


从 数学 角度 来 说 ， 


正 问题 和 道 癌 题 之 间 有 着 更 重要 的 


区 别 。 


特别 地 ， 所 研究 问题 是 适 定 的 











(wellLposed) 还 是 不 适 定 的 (iposed)。“ 适 定 " 这 个 术语 在 20 世纪 初 从 Hadamard 的 那个 时 期 起 
就 已 经 在 应 用 数学 中 使 用 。 为 了 解释 这 个 术语 ， 人 很 设 





个 值 域 了 ， 它 介 








们 在 度量 空间 有 一 个 定义 域 X 和 一 


出 一 个 固定 的 但 是 未 知 的 映射 了 联系 着 。 奶 果 下 面 三 个 条 件 均 满足 的 话 , 我 


们 就 称 映 射 六 的 重建 问题 是 适 定 的 (Tikhonov and Arsenin,1977;Morozov, 1993; Kirsch,1996) : 
1. 存在 性 。 对 每 一 个 输入 向量 xE&%， 都 存在 一 个 输出 y = 大 xz) ， 其 中 y 二 。 





2. 惟一 性 。 对 
3. 连续 性 。 映 射 是 连续 的 ， 即 对 任 





所 示 。 连 续 性 通常 也 被 称 为 稳定 性 。 
如 果 上 述 的 任何 一 项 条 件 不 满足 ， 那 么 


问题 就 称 为 


不 适 定 的 。 从 根本 上 说 ， 一 个 问题 如 果 足 不 适 定 
的 ， 说 明 大 量 的 数据 集合 里 只 包含 着 很 少 一 部 分 的 


有 用 信息 。 
在 我 们 现时 的 背 最 下 ， 负 责 产 生 训 
如 语音 、 图 




















据 的 物理 形式 学 习 ， 看 作 超 曲 面 的 














练 数据 ( 例 


象 、 雷 达 信号 、 声 纳 信 号 和 地 震 数 据 
等 ) 的 物理 现象 是 适 定 的 止 问题 。 然 而 ， 
建 问题 ， 基 于 后 面 的 原因 却 是 一 个 不 适 定 的 道 问题。 原 


从 这 些 数 





因 如 下 : 第 一 ,存在 性 准则 可 能 
存在 。 第 二 ， 训 练 样本 中 可 能 没有 完整 





建 输入 - 输 上 





任何 一 对 输 人 向 量 x，tE 叶 ， 当 且 仅 当 x=t 时 有 Fx) = AD。 
何 s>0， 存 在 8= 3(e) 使 得 当 p.(x,b < 时 ， 
(9) ,六 D) <s 成 立 。 其 中 以 ，) 表 示 两 个 变量 在 其 所 属 空间 中 的 距离 。 这 一 准则 如 








图 











映射 
定义 域 X 值 域 了 


图 5-3 定义 域 多 (输入 ) 到 值 城 和 
的 映射 示例 


满足 ， 因 为 对 于 每 一 个 输入 来 说 ， 其 不 同 的 输出 并 不 一 定 


映射 所 需 的 足够 信息 ， 因 而 惟一 性 淮 





则 可 能 不 满足 。 第 三 ， 规 实生 活 中 训练 数据 不 可 避 金 | 
输出 映射 重建 的 不 确定 性 。 特 别 地 ， 若 输入 中 所 含 的 噪声 水 平 太 高 ， 对 于 定义 域 % 的 特定 输 


人 x,， 由 神经 阅 络 所 产生 的 输出 结果 可 能 超出 值 域 4 的 范 


现 噪声 以 及 不 精确 性 ， 增 加 了 输入 - 




















; 换 名 话说， 连续 性 准则 可 能 不 





满足 。 如 果 一 个 学 习 问题 不 具有 连续 性 ， 那 么 计算 所 得 的 输入 - 输出 映射 将 和 学 习 问 题 的 真 
解 毫 万 关系 。 除 非 预 先知 道 一 些 关 于 输 和 人 - 输出 肌 射 的 先 验 信息 ， 符 则 这 个 问题 是 不 可 克服 





的 。 在 这 个 背景 下 ， 我 们 引用 Lanezos 关 
不 能 洁 任 何 数 学 技巧 来 弥补 。 








线性 微分 算 子 所 作 陈 述 是 恰当 的 :“ 信 息 的 缺乏 并 
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我 们 将 在 下 一 节 讨 论 如 何 通过 正则 化 方法 将 一 个 不 适 定 问题 转变 成 一 个 适 定 问题 P 。 
5.5 正则 化 理论 


1963 年 Tikhonoy 提出 了 一 种 新 的 方法 用 以 解决 不 适 定 问题 ”， 该 方法 就 是 正则 化 方法 。 
在 曲面 重建 的 问题 上 ， 正 则 化 的 基本 思想 就 存 通 过 某 些 含有 解 的 先 验 知识 的 非 负 的 辅助 泛 函 
来 使 解 稳定 。 先 验 知识 的 一 般 形式 涉及 假设 输入 - 输出 映射 郴 数 ( 即 重建 问题 的 解 ) 是 光滑 
的 ， 意 味 着 相似 的 输入 对 应 着 相似 的 输出 。 
进一步 ， 我 们 将 用 于 逼近 的 输入 - 输出 数据 ( 即 训练 样本 ) 集 合 描述 如 下 : 
输入 信号 :KE Bm ， ji = 12 下 
期 望 响 应 : 呈 生 图 ， 守 = 1.2…,N 
广 意 这 里 假定 输出 是 一 维 的 。 这 种 假设 并 不 会 限制 这 里 讨论 的 正则 化 理论 的 一 般 性 应 用 。 儿 
8(x) 表 泵 遂 近 通 数 ， 这 里 为 了 方便 表 达 ， 我 们 在 变量 中 省 掉 了 神经 网 络 的 权 值 向 量 w。 从 
根本 上 说 ，Tkhonov 的 正则 化 理 沦 包含 两 项 : 
1 标准 误差 项 。 该 项 用 吧 , () 表示 ， 用 以 度量 对 于 训练 样本 i = 1，2，…，A 的 期 户 
(目标 ) 响 应 & 和 实际 响应 六 之 问 的 标准 误 关 ( 距 座 )* 具体 定义 为 


ED = 村 立 (4 -7 - 到 袜 [a - ro 《5.21) 


中 ， 我 们 引入 比 例 因子 1/2 是 为 了 与 前 面 几 章 保持 -至 。 
2. 正则 化 项 。 第 2 项 用 氏 。( 户 表 示 ， 依 顿 于 通 近 郴 数 P(x) 的 “下 何 * 性 质 。 具 体 定义 为 


SC = 二 1DFP 有 (5.22) 


其 中 ，D 是 线性 微分 算 子 。 关 于 解 ( 即 输 入 - 输出 映射 PCx) ) 的 形式 的 先 验 知识 就 包含 在 算 
子 D 中 ， 这 就 自然 使 得 D 的 选取 与 所 解 的 问题 有 关 。 我 们 也 称 D 为 稳定 因子 (stabilizer ， 
为 它 使 正则 化 问题 的 解 稳定 ， 使 解 光滑 从 而 满足 连续 性 的 要 求 。 但 是 ， 光 滑 性 意味 着 连续 
人 性， 而 相反 未 必 为 真 。 

用 于 处 理 式 (5,22) 所 描述 情况 的 解 怕 方法 是 建立 在 函数 空间 的 概念 之 上 的 。 本 数 空间 
指 的 是 函数 的 赋 范 空间 “ 。 在 这 样 的 多 维 ( 严 格 说 来 是 无 限 多 维 ) 空 间 中 ， 一 个 连续 函数 由 一 
个 向 量 来 表示 。 在 这 种 几何 图 像 意 义 上 ， 我 们 就 可 以 在 线性 微分 算 子 和 矩阵 之 问 建立 深刻 的 
联系 。 由 此 对 线性 系统 的 分 析 就 可 以 转变 为 对 线性 微分 方程 的 分 析 (Lanczos,1964 )。 

于 是 ， 式 (5.22) 中 的 符号 ‖ ' | 表示 定义 在 DF(x) 所 属 空间 上 的 范 数 。 一 般 情 况 下 这 里 
所 使 用 的 函数 空间 指 的 是 包含 了 所 有 实 值 函数 /(x)，xE 图 "的 疡 空间 ， 其 中 | /Co 上 是 
Iebesgue 可 积 的 。 这 里 用 函 数 妨 寻 表示 实际 定义 的 负责 产生 输 人 - 输出 数据 对 1(x, ,@& ?2， 
的 物理 过 程 。 更 多 细节 参见 注释 

正则 化 理论 要 求 最 小 化 的 量 为 

寺 ( = 和 (FF) +Xg(F) = 二 》 Ge + 和 DFI (5.23) 


其 中 是 一 个 正 的 实数 ， 叫 做 正则 化 参数 ; 本 一 个 沦 本 里 射 函 数 ( 定 
义 在 某 个 适当 的 函数 空间 ) 到 实 直 线 。 使 Tidhonov 泛 夯 8( F) 最 小 的 解 函数 (也 就 是 正则 化 问 
题 的 解 ) 记 为 PCx)。 








《35.20) 
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在 某 种 意义 土 ， 我 们 可 以 将 正则 化 参数 和 视 为 一 个 指示 器 ， 用 来 指示 所 给 的 数据 集 作为 
确定 解 瑟 (x) 的 样本 的 充分 性 。 特 别 在 极限 情况 下 ， 当 X-*0 时 ， 硼 明 该 问题 不 受 约束 . 回 
题解 灰 (x) 完 全 决定 于 所 给 样本 。 另 一 方面 ， 当 X 一 加 时 ， 表 明 仅 由 算 子 了 所 定义 的 先 验光 
滑 条 件 就 足以 得 到 问题 的 解 灰 (x) ， 这 也 是 所 给 样本 完全 不 可 信 的 另 一 种 说 法 。 在 实际 应 用 
中 ,正则 化 参数 x 取 值 在 上 述 两 个 极限 值 之 间 ， 使 得 样本 数据 和 先 验 信息 都 对 解 扩 (x) 作 了 
贡献 。 因 此 正则 化 项 。( 天 表示 一 个 模型 复杂 性 - 悉 罚 函数 ， 其 对 最 终 解 的 影响 取决 于 正则 
化 参数 和 的 大 小 。 

另外 可 将 正则 化 看 作 提供 第 2 齐 讨 论 的 偏 置 -方差 困境 的 一 个 可 行 的 解 。 具 体 地 ， 在 正 
则 化 参数 的 最 优选 择 的 设计 中 通过 融合 恰当 的 先 验 知识 使 得 学 习 问 题 的 解 在 模型 偏 置 和 模 
型 方差 之 间 达 到 一 个 满意 的 平衡 。 


Tikhonoy 泛 函 的 Frichet 微分 
































正则 化 原理 可 以 叙述 如 下 ; 
求 使 Tikhonoy 运通 名 ( 书 ) 最 小 的 函数 本 (KE)， 其 中 ，Tikhonoy 泛 函 南 
针 ( 丈 ) = 时 (天 )》 + 从 起 (天 ) 
定义 ， 其 中 久 , (天 ) 是 标准 误差 项 ， 包 .( 百 ) 是 正则 化 项 ， 而 入 是 正则 化 参数 。 


为 进行 最 小 化 代价 泛 本 &( 玉 ) ， 我 们 首先 需要 求 8 ( 严 ) 微 分 的 规则 。 我 们 可 以 用 Faechet 微 
分 来 处 理 这 件 事 。 在 初等 微 积 分 中 ， 曲 线 上 某 点 的 切线 是 在 该 点 邻 域 上 的 曲线 的 最 佳 台 
近 直 线 。 同 理 ， 一 个 泛 函 的 Frschet 微分 可 以 解释 为 一 个 最 佳 局 部 线性 逼近 。 这 样 泛 函 电 
〔〈 瑟 的 Feschet 微分 可 正式 定义 如 下 (Domy,1975; Debnath and Mikusifski, 1990，de Figueiredo 
and Chen,1993 ) : 








L( 严 ) = [ 易 sCe + Ba) 半 (5.24) 
上 式 中 所 x) 是 一 个 固定 的 关于 向 量 x 的 函数 。 在 式 (5.24) 中 应 用 通常 的 微分 法 则 。 函 数 严 
(xz) 为 泛 函 有 ( 玉 ) 的 一 个 相对 极 值 的 必要 条 件 是 对 于 所 有 的 六 全 距 ， 泛 函 名 ( 严 ) 的 Freehet 微分 了 
电 ( 忆 , 帮 ) 在 (x) 处 均 为 零 ， 表 示 为 
过 锡 ( , 瑚 ) 二 这 甸 ( 开 天) + Ad 攻 ( 严 = 0 (5.25) 
其 中 @ 名 ,( 严 , 瑚 和 区 ,( 忆 ,无 ) 分 别 是 泛 本 电 ,( 天 和 .( 忆 ) 的 Frechet 微分 。 
计算 式 (5.21) 标 准 误差 项 , ( 严 ， 吕 ) 的 Frechet 微分 如 下 : 


(PN = [入 @CP+ 防 )]，，= [去 着 [e - ec -Ge)D] 














0 


=-- 补 4 - Fa) -了 GO =-- 王 [ed -Ph ) 


(5.26) 
在 讨论 的 这 一 点 土 ， 我 们 发 现 引入 Riesz 表示 定理 是 有 益 的 ( Debnath and Mikusitski, 1990; 
Kirsch,1996 )， 它 可 陈述 如 下 : 


令 7 为 贡 Iher 空间 ( 即 一 个 完备 的 肉 积 空间 5 ， 几 符号 中 表示 ) 上 的 一 个 有 界线 性 泛 函 。 
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看 在 一 个 如 反 吕 ,使 得 对 所 有 产 E 咏 都 有 
= 《下 ,jj 
且 上 | 训 = 上 2 zx 其 中 综 是 HiJhert 空间 咒 的 对 惕 空间 或 者 共 频 空间 。 














这 里 所 用 的 符号 ("， )% 表示 号 空 间 上 下 个 图 数 的 内 积 ( 纯 量 积 )。 因 此 ， 根 据 Riesz 表示 定理 ， 
我 们 可 以 重 与 式 (5.26) 的 Freohet 微分 z 名 ( F, 及 ) 如 下 ， 











4 (PN =- 人 (人 2- Pa (5.27) 
式 中 六 表示 以 x 为 中 心 的 六 的 Dinae delta 分 布 ， 即 
D 人 x) = SG -Xi) (5.28) 


下 面 计算 式 (5.22) 的 正则 化 项 营 。( 灵 ?的 Frechet 微分 。 用 上 面 同样 的 方法 我 们 可 以 得 到 


(下 有) = 蔓 &CF+ 8j)| =- 到 基 DLP+ Bax| 本 


= .pe+ 肌 ]Dhdx| ， = jpDpFphax = (DhDP)x 
其 中 (DA，DP)x 是 函数 DR(z) 和 DRP(x) 的 内 积 ， 冰 数 DR(z) 和 DEF(x) 分 别 代表 了 微分 算 子 
卫 作 用 在 #(x) 和 天 (x) 上 的 结果 。 
Euler-Lagrange 方程 
给 定 一 个 线性 微分 算 子 卫 ， 我 们 可 以 惟一 确定 它 的 伴随 算 子 五 ， 使 得 对 任 一 对 足够 可 徽 
且 满 足 恰当 的 边界 条 件 的 函数 w{x) 和 >(&) 有 
ecope(oex = | 05u0oex (5.30) 
等 式 (5.30) 叫 做 Green 恒等式 ; 它 为 通过 给 定 微分 算 子 了 D 来 确定 其 伴随 算 子 五 提供 - -个 数学 
基础 。 将 卫 看 作 一 个 矩阵 ， 则 其 伴随 算 子 瑟 的 作用 类 似 于 一 个 转 置 矩阵 的 作用 。 
比较 式 (5.30) 的 左边 和 式 (5.29) 的 第 四 行 ， 我 们 可 作出 如 下 恒等式 ， 
za(x) = DR(x),D(x) = DRx) 
息 据 Green 恒等式 可 将 式 (5.29) 重 写 为 等 价 形式 




















dB. (PR) = | ji(x)DDF(x) dx = (用 ,DDF)x (5.31) 

其 中 石 是 D 的 伴随 算 子 。 
将 式 (5.27) 和 (5.31) 代 人 极 值 条 件 (5.25) 中 ， 可 以 重新 得 到 Fr&chet 微分 d 区 ( 严 ,) 如 下 ; 
(下 ,有 1) = (5[ipr- 文 习 代 - ma] (5.32) 


因为 正则 化 参数 通常 取 开 区 间 (0, m ) 上 的 某 个 值 ， 所 以 当 且 仅 当下 列 条 件 在 广义 函数 意义 
下 满足 时 ， 对 于 % 空 间 中 的 所 有 函数 由 (x) ，Freohet 微分 4 名 ( 严 ,由 ) 才 为 零 : 
斑 阅 4- Da =0 








DDR - 
或 者 等 价 地 ， 


[四 ] 
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ppPmoo -二 2[& -PCc)]a(x-x) (5.33) 


式 (5.33) 是 Tikhonoy 证 画 &( P) 的 Euler-Lagmnge 方程 ; 它 定义 Tikhonoy 泛 函 @( 严 ) 在 () 处 
有 极 值 的 必要 条 件 (Debnath and Mikusifski,1990 )。 


Green 函数 


式 (5.33) 表 示 识 近 函数 的 偏 微分 方程 。 该 方程 的 解 是 由 方程 右边 的 积分 变换 组 成 的 。 

令 6(5 司 表示 向 量 x 和 癌 的 一 个 国 数 ， 两 个 向 量 的 地 位 相同 ， 但 它们 的 目的 不 同 ; 向 
量 x 作 为 参数 ， 而 向 量 5 则 作为 自 变 量 。 对 于 给 定 的 线性 微分 算 子 荆 ， 我 们 规定 函数 G(x， 
号) 满足 如 下 条 件 ( Courant and Hilbert,1970) ; 

1. 对 于 固定 的 5，C(x: 纹 尾 x 的 讽 数 ， 且 满足 规定 的 边界 条 件 。 

2. 除了 在 点 X = 号 外 ，G(x,5) 对 于 x 的 导数 是 连续 的 。 导 数 的 次 数 由 线性 算 子 工 的 阶 数 
决定 。 

3. 将 C(x,5) 看 作 x 的 明 数 ， 除 了 在 点 = 奇异 外 ， 它 满足 偏 微分 方程 




















LG(x,5) = 0 (5.34) 
也 即 函 数 C(x,5) 满 足 (在 广义 函数 的 意义 下 ) 
LC(x:5) = SGx - 避 (5.35) 











中 ，S(Gr- 允 如 前 定义 是 位 于 点 开 = 吕 的 Dirac delta 函数 。 

因此 上 述 的 函数 C(x,5) 叫 做 微分 算 子 工 的 Green 函数 。Green 函数 对 于 线 住 微分 算 子 的 
作用 类 似 于 一 个 矩阵 的 北 矩 阵 对 该 矩阵 方程 的 作用 。 

令 (0 表示 一 个 关于 xE 民 " 的 连续 或 者 分 段 连续 的 函数 。 那 么 函数 


FOOD = | ctx.59(6)45 (5.36) 























就 是 微分 方程 
ILF(X) = 中 X) 《5.37) 
的 解 ， 其 中 C(x, 司 ) 是 线 任 微分 算 子 工 的 Green 函数 (Courant and Hilbert.1970 ) 。 
为 了 证 明 8(x) 为 (5.37) 的 解 ， 我 们 将 微分 算 子 工作 用 于 式 (5.36) 的 两 庙 ， 可 得 
LRCx) = 二 CC 5)P(5) ES) = EC05,5)9(5) 全 (5.38) 


微分 算 子 工 将 视 为 常量 ， 它 作用 于 C(x, 引 时 仅 和 将 其 视 为 x 的 函数 。 将 式 (5.35) 代 和信 式 
(5.38)， 有 
































LRCOD = | ae- 9( 旬 由 
最 后 ， 利 用 Dinae Delta 郑 数 的 第 选任 质 ， 可 得 
ea(x- 5d(6) = 00 
这 样 我 们 就 得 到 了 如 式 (5.37) 所 描述 的 工 PC) = gx)。 
正则 化 问题 的 解 
回 到 当前 的 问题 ， 下 面 我 们 来 解 Euler Lagrange 微分 方程 ， 即 式 (5.33) ， 令 
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和 9 = 二 3 [4 -Ptx)]8G -xi) (5.40) 
那么 根据 式 (5.36)， 有 有 
RAWG0= | ce5 伟 袜 Ia- PooD]DaGE-x)je 


= erGo]c0caaG -zx) 生 
上 式 第 二 行 交 换 了 积分 与 求 和 的 次 序 。 最 后 ， 利 用 Dirac Delta 枯 数 的 簿 选 性 质 ， 我 们 可 以 得 
到 EulerLagrange 微分 方程 (5. 33) 的 多 如 下 
Aco -一 到 一 PR) CORE ) (5.41) 


式 (5.41) 说 明正 则 化 问题 的 最 小 化 解 丽 (是 六 个 Creen 函数 的 线性 登 硼 。x 代表 扩展 中 
心 ， 权 值 1 4 - PCx,)] 人 代表 展开 系数 。 换 句 话 说 ， 正 则 化 问题 的 般 在 光滑 函数 的 空间 的 一 
个 六 维 子 空间 上 ， 以 汪 ， 守 =1，2，…， 有 为 中 心 的 一 组 Green 画 数 ; 6(x,x.)} 组 成 了 该 子 
空间 的 基 ( Poggio and Girosi,1990a )。 注 意 式 (5.41) 中 ， 屡 开 系数 具有 如 下 性 质 : (1) 与 系统 的 
估计 误差 (定义 为 应 有 输出 @ 和 相应 的 网 络 实际 计算 和 输出 尺 (x) 之 差 ) 成 线性 关系 ; (2) 与 正 
则 化 参数 X 成 反比 。 

















确定 展开 系数 
下 面 将 要 解决 的 问题 是 如 何 确 定式 (5.41) 中 的 展开 系数 。 令 
2 了 [@& -= 1,2 (5.42》 
则 正则 化 问题 的 最 小 化 解 (5.4 世 可 以 写成 如 下 形式 : 
FA(CX) = 六 wecxur) 《5.43) 
分 别 在 页 ，/=1，2，…， AN 上 计算 式 (5.43) 的 值 ， 可 得 
用 ) = CO) = 2 (5.44》 
现在 我 们 引入 如 下 定义 : 
及 = [所 (0) 下 ( 吕 )，P(zw)] 了 (5.45) 
= dd (5.46) 
GO) CO) CO 
8 0) 了 Ce 全. 生 ) 
CC) CGO 9) GCCxvy xy) 
凤 = [any yy (5.48) 


然后 式 (5,42) 和 (5.44) 可 分 别 写成 算 阵 形式 
= 了 (da- 卫 ) (5.49) 
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E 和 甩 = Gw (5.50) 
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消去 式 (5.49) 和 (5.50) 中 的 及， 重新 调整 项 我 们 可 得 
(G+MDw=ad (5.51) 
其 中 工 是 一 个 8x 六 阶 的 单位 抢 阵 。 和 矩阵 台 称 为 Creen 窍 阵 。 
式 (5.39) 所 定义 的 线性 微分 算 子 工 是 自 伴 的 ， 它 的 伴随 算 子 等 于 它 自 身 。 因 此 ， 与 其 相 
关 的 Green 函数 C(X,x; ) 是 对 称 函 数 ， 即 对 所 有 的 1， 了 都 有 
C(x) = CGO) 《5S.52) 
式 (5.52) 表 明 Creen 函数 C(x,8) 的 两 个 自 变 量 x 利 中 的 位 置 是 可 以 互 换 的 而 不 影响 它 的 值 。 
等 价 地 ， 式 (5.47) 所 定义 的 Green 抑 阵 G 是 对 称 矩 阵 ， 即 
G7 = G 《5.53) 
现在 我 们 回顾 一 下 插值 定理 ， 它 在 5.3 节 中 利用 插值 狐 阵 中 进行 描述 。 我 们 首先 注意 到 
Green 矩阵 G 在 正则 化 理论 中 所 起 的 作用 与 插值 矩阵 @ 四 在 RBF 撒 值 理论 中 所 起 的 作用 相同 。 
它们 那 呈 闵 x w 阶 的 对 称 阵 。 因 此 ， 我 们 可 以 说 ， 对 于 某 类 Green 函数 ， 只 要 所 提供 的 数据 
点 鸭 ， 玉 ，…，xw 是 下 不 相同 的 ， 则 Green 矩阵 就 是 正定 的 。 满 足 Wicchelli 定理 的 Green 画 
数 包括 道 多 二 次 画 数 和 Causs 函数 ， 但 是 没有 多 二 次 函数 。 实 际 上 ， 我们 总 是 将 入 选 得 足够 
大 ,使 得 G+ 并 是 正定 的 ， 从 而 是 可 道 的 。 这 样式 (5.51) 所 表示 的 线性 方程 组 就 具有 惟一 解 
(Poggio and Cirosi, 1990a ) , 


















































w=(G+XD-d (5.54) 
因此 ， 只 要 选 定 了 微分 算 子 D， 从 而 确定 了 相应 的 Creen 静 数 COo 和 )，i=1，2，…，AN， 
我 们 就 可 以 通过 计算 式 (5.54) 得 到 与 某 一 特定 期 望 输出 向 量 4 以 及 合适 的 正则 化 参数 值 和 相 
对 应 的 权 值 向 量 w。 

总 之 ， 我 们 可 以 说 正则 化 问题 的 解 可 以 由 展开 式 光 

有 (= CO ) (5.55) 
台 

给 出 ， 其 中 C(x,x, ) 是 自 伴 微 分 竺 子 工 = DBD 的 Green 函数 ， 必 是 权 值 向 量 w 的 第 个 元 素 。 
这 两 个 量 分 别 由 式 (5.53) 利 式 (5.54) 定 义 。 由 式 (5.55) 可 知 (Poggio and Girosi,1990a ) : 

” 正则 化 方法 等 价 于 在 一 组 Green 冰 数 的 基础 上 解 的 展开 ， 它 们 的 特性 只 决定 于 所 采 

用 的 稳定 因子 D 的 形式 和 相关 的 边界 条 件 。 

”* 在 展开 式 中 所 用 到 的 Green 数 的 个 数 与 训练 过 程 中 所 用 的 样本 数据 点 的 个 数 相 同 。 

但 是 应 该 注意 的 是 ， 式 (5.55) 所 给 出 的 正则 化 问题 的 解 是 不 完整 的 ， 因 为 它 代 表 一 个 对 
位 于 算 子 D 的 零 空 间 上 项 g(x) 的 解 的 模 ( Poggio and Ciroei,1990a )。 我 们 这 人 么 说 是 因为 所 有 
们 于 了 的 零 空 间 上 的 函数 对 于 式 (5.23) 的 目标 省 函 8( 太 ) 中 的 让 DF 有 | 项 都 是 “不 可 见 * 的 。 
我 们 所 说 D 的 零 空间 是 指 所 有 满足 De 等 于 零 的 函数 g(x) 的 集合 。 附 加 项 g(x) 的 确切 形式 
是 依赖 问题 的 ， 也 就 是 它 取决 于 问题 的 稳定 因子 的 选取 以 及 边界 条 件 。 例 如 ， 当 稳定 因子 D 
对 应 于 一 个 钟 形 Green 函数 ， 如 Gauss 函数 或 者 逆 多 二 次 函数 ， 此 时 就 不 需要 5(x)。 由 于 这 
个 原因 ， 并 且 它 的 存在 并 不 会 对 最 后 主要 结果 产生 影响 ， 所 以 我 们 在 结果 中 忽略 这 个 问题 。 

对 于 某 一 特定 的 中 心 x% ，Green 项 数 的 特性 只 取决 于 所 选 的 稳定 因子 ， 即 只 取决 于 关于 
输 人 - 答 出 映射 的 先 验 假设 。 如 果 所 选 的 稳定 因子 D 具有 平移 不 变性 ， 则 以 为 中 心 的 
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Creen 罗 数 C(X,， 关 ) 只 取决 于 自 变量 x 和 关 之 差 ; 即 

BUG) = CU 一 瑟 ) (S.56) 
如 果 稳 定 因子 D 是 平移 不 变 和 旋转 不 变 的 ， 则 Green 函数 C(x,x ) 只 取决 于 问 量 x-z 的 
Buclid 范 数 ， 表 示 为 























Cltxx) = CClx-x1) (5.57) 
在 这 些 条 件 下 ，Green 函数 一 定 是 径 向 某 函 数 。 此 时 ， 式 (5.55) 的 正则 化 问题 的 解 可 表示 为 
如 下 形式 (Poggio and Cimsi,1990a) : 
PCO = 症 wc(lx -xi (5.58) 
式 (5.58) 所 描述 的 解构 造 一 个 依赖 于 已 知 数据 点 的 Fuclid 距离 度量 的 线性 函数 空间 。 
式 (5.58) 所 描述 的 解 叫做 严格 插值 解 ， 因 为 所 有 六 个 已 知 训练 数据 点 都 被 用 于 生成 插 
值 函数 R(x)。 但 是 ， 值 得 注意 的 是 式 (3.58) 与 式 (5.11) 所 表示 的 解 宪 根 本 不 同 : 式 (5. 58) 
的 解 被 式 (5.54) 给 出 的 权重 向 量 w 的 定义 所 正则 化 。 只 有 当 我 们 将 正则 化 参数 和 设 为 零 时 ， 
这 两 个 解 才 是 一 样 的 。 


多 元 Gauss 函数 


Creen 函数 CCx,x,) 的 相应 的 线性 微分 算 子 卫 是 平移 不 变 利 旋转 不 变 的 并 且 它 满足 式 
(5.57) 的 条 件 ， 此 时 Green 冰 数 具有 重要 实际 意义 。 这 类 Green 函数 的 一 个 例子 是 多 元 Gauss 
函数 ， 定 义 为 














CUCXX) = cp( -过 1x-x 上 (5,59) 


其 中 x 表示 函数 的 中 心 ， 而 c, 则 表示 它 的 宽度 。 与 式 (5.59) 所 示 Green 函数 相对 应 的 自 伴 
舞 算 子 荆 = DD 由 下 式 给 出 (Poggio and Ginmosi,1990a) : 





工 - (- Dre mm 0560) 
办 
其 中 = 《5.61) 
而 VY” 是 mo 维 多 重 拉 普 拉 斯 算 子 
国 且 如 
= 3 + (5.62) 














因为 式 (5.60) 中 工 的 项 数 允 许 到 无 穷 ， 所 以 从 标准 意义 上 说 工 并 不 是 一 个 微分 算 子 。 因 此 ， 
我 们 将 式 (5.60) 中 的 工 称 为 伪 徽 分 算 子 。 
由 于 定义 工 = DD， 由 式 (5.60) 我 们 可 以 推导 出 算 子 卫 和 方 如 下 (参见 注释 [10]): 
D = 了 o 人 (天 = Ci (5.63) 


证 下 
1 








国 了 了 3 了 
-CDree( 记 + 志 ++ 运 ) Ta 


四 
《5.64) 
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因此 通过 使 用 包括 所 有 可 能 偏 导数 在 内 的 稳定 因子 ， 可 以 得 到 式 (5.58) 形 式 的 正则 解 。 
将 式 (5.59) 全 (5.61) 代 人 式 (5.35) 日 令 总 为 工 ， 则 我 们 有 


习 玉 ep(- 浆 -sa (5.65) 


利用 (5.59) 定 义 的 Green 函数 的 特殊 形式 ， 我 们 就 可 以 将 式 (5.55) 给 出 的 正则 化 解 写成 多 元 
Gauss 函数 的 线性 亚 加 形式 如 下 : 


忆 (x) = 症 een 人 - 赤 lx-x 1 (5.66) 


其 中 线性 权 值 wm 由 式 (5.42) 定 义 。 

在 式 (5.66) 中 ,定义 通 近 冰 数 &(x) 的 各 Gauss 项 的 方差 是 不 同 的 。 为 简化 起 见 ， 通 常 认 
为 在 (xz) 中 对 所 有 的 让 都 有 o: = 。 尽 管 这 样 设 计 的 RBF 网 络 是 受到 一 定 限制 的 一 种 ， 但 
其 仍 不 失 为 一 个 通用 逼近 器 (Park and Sandberg ,1991)。 


5.6 正则 化 网 络 


式 (5.55) 给 出 的 正则 化 通 近 函数 本 (xz) 关 于 中 心 在 X 的 Green 函数 G(K,X ) 的 展开 预示 
着 图 5-4 所 示 网 络 结构 为 其 提供 一 个 实现 方法 。 基 于 明显 的 原因 ， 这 种 网 络 结构 被 称 为 正则 
化 网 络 (Pogegio and Girosi; 1990a ) 。 如 5.1 节 所 述 的 网 络 一 样 ， 该 网 络 包括 二 层 。 第 一 层 是 由 
输 和 人 节点 组 成 的 ， 输 和 信 节点 数 月 等 于 答 人 向量 x 的 维 数 ma5 即 问题 的 独立 变量 数 )。 第 二 层 
是 隐藏 屋 ， 它 是 由 直接 与 所 有 输入 节 点 相连 的 非 线性 单元 组 成 的 。 一 个 隐藏 单元 对 应 一 个 数 
据点 五 ，i=1，2，…， 交 ， 其 中 W 表示 训练 样本 的 长 度 。 每 个 隐藏 单元 的 激活 函数 由 Creen 
函数 定义 。 由 此 第 让 个 隐藏 单元 的 输出 是 C(x,x )。 输 出 层 仅 包括 一 个 线 伯 单 元 ， 它 与 所 有 
耻 藏 单元 相连 。 这 里 所 谓 的 “线性 " 指 的 是 网 络 的 输出 是 隐藏 单元 输出 的 线性 加 权 和 。 输 出 层 
的 权 值 就 是 未 知 的 展开 系数 ， 如 式 (5.54) 所 示 ， 它 是 由 Green 函数 6(x,x ) 和 正则 化 参数 入 
决定 。 图 5-4 描绘 一 个 单 输出 的 正则 化 网 络 的 结构 图 。 显 然 ， 我 们 可 以 将 其 推广 为 包括 任意 
期 望 输出 数目 的 正则 化 网 络 。 



























































输入 层 N 个 Green 函 教 的 隐藏 晨 输出 层 
图 5-4 正则 化 网 络 


图 5-4 所 示 的 正则 化 网 络 假设 Creen 函数 C(x,x ) 对 所 有 的 都 是 正定 的 。 假 设 上 述 条 件 
成 立 ， 例 如 ，Green 画 数 具 有 式 (5.59) 所 示 Gauss 形式 ， 则 由 该 网 络 所 得 到 的 解 在 泛 画 8( 忆 ) 最 小 





斌 认 业 声 复 网 此 
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化 的 意义 下 将 是 一 个 "最 佳 "的 内 
望 的 性 质 (Poggio and Cirosi,1990a ) : 
1. 正则 化 网 络 是 一 个 通用 逼近 器 ， 
只 要 有 足够 多 的 隐藏 单元 ， 它 可 以 以 
任意 精度 遂 近 定义 在 员 " 的 紧 子 集 上 
的 任何 多 元 连续 函数 。 
2.- 由 于 正则 化 理论 导出 的 逼近 格 
式 的 未 知 系数 是 线性 的 ， 这 样 该 网络 具 
有 最 佳吉 近 性 能 。 这 说 明 给 定 一 个 林 知 ， 
的 非 线性 晒 数 A， 总 可 选择 一 组 系数 使 得 
它 对 的 逼近 优 于 所 有 
3. 由 正则 化 网 络 求 得 的 解 是 最 佳 
的 。 这 里 的 最 佳 是 指正 则 化 网 络 使 测 
量 训练 样本 表示 的 解 与 真实 值 有 多 大 
偏差 的 泛 函 最 小 化 。 


5.7 广义 径 向 基 范 数 网 络 




















由 于 输 和 人 向量 x 与 Green 函数 EC(xR)，i=1，2，… 


洗 解 。 而 且 ， 


他 可 能 选择 。 


辣 


和 


心 个 径 向 基 画 教 的 歼 藏 层 
图 5-5 径 向 基 函 数 网 络 


， 记 之 问 的 





由 逼 近 理论 的 观点 ， 止 则 化 网 络 其 有 如 下 三 个 期 


1 


输出 层 ' 


一 对 应 的 关系 ， 有 


时 候 如 果 六 太 大 了 ， 实现 它 的 计算 量 将 大 得 惊人 。 桂 别 呈 在 计算 网 络 的 线性 权 值 ( 即 式 
入 x W 阶 和 矩阵 的 着， 其 计算 量 按 六 的 多 项 式 增长 


(5.55) 中 的 展开 系数 ) 时 ， 要 求 计算 一 个 
(大约 为 
最 大 特征 值 与 其 最 小 特征 值 的 比 
的 复杂 度 ， 这 要 求 一 个 正则 化 解 的 近似 。 

解决 办 法 是 在 一 个 较 低 纪 























下 ( 玫 


值 集合 。 根 据 径 向 基 函 数 ， 我 们 设 

















mi=N， 且 和 = ii=1, 2 …，wN 时 ， 


人 式 (5.67) 中 . 我 们 可 以 重新 定义 ” 《zx) 为 


天 (人 = 呈 wcl 


给 定 通 近 函 数 F" (x) 的 (5. 的 ) 的 展开 


ui=12……mzl | ， 使 新 的 代价 泛 本 ( 


和 (= GClx 一 | )， 
中 中 心 集 i6 1i= 1, 2，mi 1 待定 。 基 郴 数 的 这 个 特定 选择 是 惟一 的 选择 ， 使 得 能 保证 当 
此 将 式 (5.68) 代 





) = > wp) 
加 





1 2 


民 )。 另 外 矩阵 越 大 ， 其 病态 的 可 能 性 越 高 ;一 个 矩阵 的 条 件数 被 定义 为 该 矩阵 的 
值 。 为 了 克服 这 些 计 算 上 的 困难 ， 我 们 通常 要 降低 神经 网 络 


数 的 空间 中 求 一 个 次 优 解 。 以 此 来 逼 近 式 (5.55) 所 给 出 的 正则 
解 。 这 可 以 通过 变 分 问题 中 通称 Galerkin 方法 的 标准 压 术 实现 。 根 据 这 个 技术 ， 近 似 解 
严 (8) 将 在 一 个 有 限 基 上 进行 扩展 ， 表 示 为 (Poggio and Girosi,1990a) 





(5.67) 


其 中 ip,(z)1E= 12m 1 是 一 组 新 的 基 函 数 ， 不 失 一 般 性 我 们 假设 它们 线性 独立 。 典型 


情况 下 这 组 新 的 基 函 数 的 个 数 小 于 输 人 数据 点 的 个 数 ( 即 mm <N)， 并 且 wi 组 成 一 组 新 的 权 


(3.68) 





其 解 与 式 (5.58) 的 正确 解 一 致 。 











人 = ucClx_alD 


飞 ， 








到 ” ) 最 小 化 ， 新 代价 泛 丽 由 


(5.69》 


形式 ， 我 们 将 要 解决 的 问题 是 确定 一 组 新 的 权 值 
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(R ) - 袜 (4 -对 setlz -5 + 和 1 DP” | (5.70)》 
定义 。 式 (5.70) 右 边 第 一 项 本 以 写成 欧 几 里 德 数 平方 1 d- Gw 上 | ， 其 中 
d= [d dv]7 (5.71) 
Cs) 6) … east )] 
Ce) Ce) 全 Ce) 0 
CC) CGOx ee) GOxwt 品 
= [aolyans am] (5.73) 


期 望 响 应 向 量 昌 与 前 面 一 宕 是 维 的 。 但 是 ，Green 本 数 的 矩阵 G 和 权 值 向 量 w 的 维 数 却 
有 不 同 维 数 ， 和 矩阵 G 现在 是 W x mt 阶 的 ， 所 以 不 再 是 对 称 的 ， 而 向 量 w 是 mm xl 的 。 由 式 
(5. 人 9) 我 们 注意 到 ， 近 似 函 数 严 是 由 稳定 因子 D 决定 的 Green 函数 的 线性 组 合 。 因 此 ， 我 
们 可 以 将 式 (5.70) 右 边 第 二 项 写成 








PDF 12= (DF ,DF)z = [2wccoto) 右 对 ctee) 加 
(5.74) 
= - [ 马 wetet， 王 eat]。 - 妃 下 wete = WwTrGow 
其 中 第 一 个 和 第 三 个 相等 项 分 别 利 伴随 算 了 的 定义 和 式 (5。 35)。 和 矩阵 Ge 是 一 个 mi x m 
阶 的 对 称 阵 ， 定 义 为 




















CC 省 ) Ce) CCGt) 
CUbb)  G(bb) CCD) 
Go = . ” (5.75) 
C(t 6 COb) Gyt) 
以 权 值 向 量 w 为 变量 求 式 (5.70) 的 最 小 值 ， 可 以 得 到 以 下 结果 (参看 习题 5.5): 
(G7G + MXGo)。= GT7d (5.76) 


当 正 则 化 参数 》 趋 近 零 时 ， 权 值 向 量 w 趋 于 一 个 超 定 的 最 小 平方 数据 - 拟 合 问题 (因为 m, < 内) 
的 伪 逆 (最 小 范 数 ) 解 ， 表 示 为 (Broomhead and Lowe,1988 ) 

mw=G dx=0 《5.77) 
其 中 G-* 是 矩阵 G 的 伪 道 ; 即 





G = (G7G)-G7 《3.78) 
加 权 范 数 
式 (5.69) 中 的 范 数 通常 指 的 是 欧 几 里 德 范 数 。 然 而 ， 当 输入 向 量 x 的 分 量 属 于 不 同 的 类 
时 ， 将 其 视 为 一 般 的 加 权 范 数 会 更 合理 , 加 权 范 数 的 平方 形式 由 
1 xlt =《Cx7(Cx) = xrCTrCx {S.79) 
定义 (Poggio and Cirosi, 1990a ) ， 其 中 C 是 一 个 mu x mo 加 权 和 些 阵 ，m 是 输 人 向量 x 的 维 数 。 
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利用 加 权 范 数 的 定义 ， 我 们 可 以 将 式 (5.69) 中 正则 化 问题 的 近似 解 写成 如 下 更 一 般 的 形 
式 (Lowe,1989; Poggio and Citosi ,1990a) ; 


挛 :CD) = 翌 c: lx -to) (5.80) 

引信 加 权 范 数 可 以 用 两 种 方式 解释 。 我 们 可 以 简单 将 其 视 为 对 原始 输入 空间 做 一 个 念 身 

变换 。 原 则 上 这 种 变换 并 不 会 降低 原来 不 加 权 的 结果 ， 因 为 原来 不 加 权 的 范 数 实际 上 对 应 于 

一 个 单位 年 阵 的 加 权 范 数 。 另 一 方面 ， 加 权 范 数 可 以 看 作 直 接 从 式 (5. 人 3) 定义 的 mo 维 

Taplace 伪 微 分 算 子 D 的 少许 椎 广 ; 参见 习题 5.6。 使 用 加 权 范 数 的 合理 性 在 Gauss 径 向 基 范 

数 背景 下 可 以 解释 如 下 。 一 个 以 上 为 中 心 和 具有 范 数 加 权 和 矩阵 C 的 Gauss 径 向 基 函 数 
G(1x-t | ec) 可 写成 

CC1x-tiec)= exp[-(-b)rCrCC -6 








5.8 
= oo[- 二 xz-b] 《580) 





其 中 逆 矩 阵 瑟 -! 定 义 为 去 2 -CrC (5.82) 


式 (5.81) 表 示 一 个 具有 均值 向 量 忆 和 协 方差 矩阵 卫 的 多 元 Ganss 分 布 。 基 于 此 ， 它 是 式 
(5-.59) 描 述 分 布 的 推广 。 

式 ($.70) 中 还 近 问题 的 解 为 上 共有 如 图 5-5 结构 的 广义 径 向 基 未 数 网 络 提供 了 一 个 框架 。 
在 这 种 网 络 中 ， 输 出 单元 上 有 一 个 偏 置 ( 即 独立 于 数据 的 变量 ) 。 要 做 到 这 一 点 可 以 简单 将 输 
出 层 的 一 个 线性 权 值 置 为 偏 置 值 ， 同 时 将 与 该 权 值 相对 应 的 径 向 基 困 数 视 为 一 个 等 于 + 1 的 
常量 。 

从 结构 上 看 ， 图 5-5 所 示 的 广义 RBF 网 络 与 图 5-4 所 示 的 正 惠 化 RBF 网 络 相似 。 但 它 
们 在 以 下 两 个 重要 的 方面 不 同 ， 

1. 图 5-5 所 示 的 广义 RBF 网 络 隐藏 层 的 节点 数 为 m ， 通 常 mm, 总 是 小 于 用 于 训练 的 样 
本 数 N。 另 一 方面 ， 图 5-4 所 示 的 正则 化 RBF 网 络 的 隐藏 单元 数 恰 为 w。 

2. 在 图 5-5 的 广义 RBF 网 络 中 ， 与 输出 层 相连 的 线性 权 值 向 量 ， 以 及 与 隐藏 层 相连 的 
径 向 基 函 数 的 中 心 利 范 数 加 权 和 矩阵 ， 均 为 待 学 习 的 未 知 参数 。 而 图 5-4 的 正则 化 RBF 网 络 
隐藏 层 的 激活 函数 是 已 知 的 ， 它 定义 为 一 组 以 训练 样本 点 为 中 心 的 Green 函数 ; 输出 层 的 权 
值 向 量 是 网 络 的 惟一 的 未 知 参 数 。 


接受 域 


协 方差 矩阵 世 决 定式 (5.81) 给 出 的 Causs 径 向 基 困 数 6( 外 x-t || c) 的 接受 域 。 给 定 一 
个 中 心 上 ，CGC1x- 1。) 的 接受 域 形 式 地 定义 为 函数 
Oo) = CCxz-tley-a (5.83) 
的 支 集 ， 其 中 e 是 一 个 正常 数 (Xa t 相 . ,1994 )。 换 名 话说 ，C( 1 x- 直 | ce) 的 接受 域 是 输入 
向 量 x 的 定义 域 的 一 个 特殊 子 集 ， 这 个 子 集 中 的 所 有 工 都 能 使 C( | x -所 站 c) 取 值 大 于 给 定 
水 平 e。 
根据 加 权 范 数 年 阵 C 的 不 同 定义 方式 ,我们 可 以 分 三 种 情况 讨论 协 方差 矩阵 马 及 其 对 
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接受 域 的 形状 、 大 小 和 方向 的 影响 ， 

1. 亚 =o1， 其 中 工 是 单位 矩阵 ， 是 公共 方 莽 。 此 时 ，CC1x -6 | e) 的 接受 域 是 以 上 
为 中 心 和 半径 由 = 决定 的 超 球面 。 

2. 呈 = diag(a , 呈 ,, 的 )， 其 中 了 是 输入 向 量 x 的 第 了 个 分 量 的 方差 ， /= 1，2，…， 
maos 在 这 种 情形 ，G( xz- | ce) 的 接受 域 足 :个 超 权 圆 而 ， 它 的 轴 与 输入 空间 的 轴 一 致 
沿 第 7 个 轴 的 伸延 出 a 决定 。 

3. 马 是 一 个 非 对 角 具 阵 。 根 据 定义 瑟 是 一 个 正定 矩阵 。 所 以 我 们 可 以 用 拖 阵 代数 中 的 
相似 变换 来 分 解 忆 如下: 




















2 = QTAQ (5.84) 
其 中 入 是 一 个 对 角 矩 阵 ， 而 Q 是 一 个 正 交 旋转 和 矩阵 。 怎 阵 A 决 定 接受 域 的 形状 和 大 小 ， 
而 矩阵 @@ 决定 接受 域 的 方向 。 


5.8 XOR 问 题 (再 讨论 ) 


再 考虑 第 4 章 中 我 们 用 单 隐藏 层 的 多 层 感知 器 模型 解决 过 的 XOR( 办 或) 问题 。 这 蜂 我 们 
将 给 出 用 RBF 网 络 求解 这 个 问题 的 解 。 
被 研究 的 RBF 网 络 由 一 对 Gauss 明 数 组成， 它们 定义 如 下 : 
CE 于) = exp(- 1 zx 二 上 = 1.2 (5.85)》 

















其 中 中 心 和 和 所 为 
眉 = [1 be = [0,0]7 

对 输出 单元 的 特性 ， 我 们 作 如 下 假设 : 

1. 由 于 问题 是 对 称 的 ， 输 出 单元 使 用 权 值 共享 ， 这 是 先 验 知识 嵌入 网 络 设计 的 一 种 形 
式 。 因 此 ， 虽 然 有 两 个 隐藏 单元 ， 我 们 只 有 一 个 权 值 w 有 待 确定 。 

2. 输出 单元 包括 一 个 偏 置 5 即 独立 于 数据 的 变量 )。 此 偏 置 的 作用 是 保证 XOR 函数 具 
有 非 零 均值 的 输出 值 。 

用 于 解决 XOR 问题 的 RBF 网 络 结构 如 图 5-6 所 示 。， 该 网 络 的 输入 输出 关系 可 定义 为 
?固定 输入 =+1 
如 ( 偏 置 ) 







































输入 节点 Gauss 画 数 线性 输出 神经 元 
图 5-6 求解 XOR 问题 的 RBF 网 络 


yz = aoc(1x -和 |)+8 (5.86) 


为 了 拟 合 表 5.2 所 示 的 训练 数据 ， 我 们 要 求 
7y(5) = 本 ， 了 = 1,2,3,4 (5.87) 
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其 中 届 让 输入 向 量 ， 忆 是 与 其 相应 的 期 望 输出 值 。 令 








可 = CO- 了 =1,2.3,4 = 1,2 (5.88) 
利用 表 5-2 的 值 代 人 式 (5.88)， 我 们 可 以 得 到 如 下 以 矩阵 形式 表示 的 方程 组 : 
Gw =d 《3.89) 
表 5-2 ”XOH 问题 的 输入 - 输出 变换 计算 
数据 点 地 输入 模式 交 期 户 输 出 4 
1 0 日 
2 (人 0.U 1 
3 《0.0) 0 
二 《LO) 1 























] 0.1353 1 
虹 四 _ | 0.3678 0.3678 1 (5 .90) 
0.1353 I 
0.3678 0.3678 1 
d=[010 IJ] (5.91) 
机 = [aa zw 8 二 (5.92) 


这 里 描述 的 问题 是 超 定 的 ， 这 是 就 数据 点 的 个 数 比 自由 参数 数 日 多 的 意义 而 言 的 。 这 就 解释 
矩阵 G 为 什么 不 是 方 阵 的 原因。 因此 ， 怎 阵 G 不 存在 惟一 的 送 。 为 了 克服 这 个 困难 ， 我 们 
用 式 (5.78) 的 最 小 范 数 解 来 解决 这 个 问题 ， 由 此 可 得 

w=Gd=(GIG)-GIr4 《5.93) 
注意 G7G 是 一 个 方 阵 ， 其 逆 存 在 。 将 式 (5.90) 代 人 式 (5.93)， 我 们 有 





1.8292 - 1.2509 “0.6727 - 1.2509， 
人 G- | 0.6727 - 1.2509 【1.8292 - ram| 《5.94) 
- 0.9202 “1.4202 - 0.9202 ”1.4202 
最 后 ， 将 式 (5.91) 和 式 (5.94) 都 代 人 式 (5.93) 中 ， 可 得 
-2.5018 
= | za 
二 2.8404. 
这 样 ， 我 们 就 用 RBF 网 络 完整 解决 了 XOR 问题 。 
5.9 正则 化 参数 估计 





正则 化 参数 和 在 5.5 节 至 5.7 节 提 弄 的 径 向 基 函 数 网 络 正则 化 理论 中 起 着 中 心 的 作用 。 
为 了 更 好 的 利用 这 个 理论 ， 我 们 需要 一 个 估计 、》 的 相当 于 原理 性 的 方法 。 
为 了 形成 我 们 的 思想 ， 先 考虑 一 个 非 线 性 回归 问题 ， 它 由 一 个 模型 模 述 ， 其 中 与 第 守 时 
间 步 的 输入 向 量 所 相对 应 的 可 观测 输出 7 定义 为 
办 = zx)+e， = 12 《5S.95) 
此 处 所 x, ) 是 一 条 "光滑 曲线 "，g; 是 一 个 均值 为 零 和 方差 为 呈 的 白 则 声 过 程 的 采样 。 即 
E[es]=0 对 所 有 : (5.96) 





图 
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和 steel (5.97) 
问题 是 在 给 定 一 组 训练 样本 jx ，y jj 的 条 件 下 ， 重 建 该 模型 的 图 有明 数 Fax )。 


令 下 (9 为 /zx) 相 对 于 某 个 正则 化 参数 :的 正则 化 估计 。 基 严 (%) 为 使 表示 非 线性 回归 
问题 的 Rikhonev 泛 函 
&CP = 二 [D7 -PC 了 + 冯 1DPCO 有 (5.98) 
达到 最 小 的 最 小 化 函数 。 选 择 -个 合适 的 》 值 并 不 是 一 个 简单 事 ， 它 需要 在 下 向 两 种 矛盾 的 
情况 之 问 加 以 权衡: 
。 由 上 DFCo | 项 来 度量 解 的 契 炖 度 
。 出 冯 [y -PCx ) 了 了 项 来 度量 数据 的 失真 度 
这 一 节 的 主题 是 讨论 如 何 选择 好 的 正则 化 参数 x。 
均 方 误差 
令 RM) 表示 模型 的 回归 函数 /zx) 和 表示 在 正则 化 参数 》 某 一 值 下 的 解 的 再 近 函 数 所 
《 之 间 在 整个 给 定 集合 上 的 均 方 误差 好 
RD = 方 忆 Be) -号 (Go (5.99) 


所 亩 最 侍 入 指 的 是 使 RGX) 取 最 小 的 入 值 。 
将 玉 (Cm) 表 示 为 给 定 的 一 组 可 观察 值 的 线性 组 合 : 


























帮 
有 (CO) = au(N)7 (5.100) 

用 等 价 的 矩阵 形式 当成 

了 = 入 ()7 《5.1017 
其 中 到 =[ 玉 (6) 甩 (本 (xzw)] 

7= [yy 了 

GD 2 0 TY 
且 AGO (5.102) 

Cw 人 ww 


其 中 NxA 矩阵 入 () 称 为 影响 星 阵 。 
用 上 述 的 矩阵 符号 ， 我 们 可 将 式 (5.%9) 重 新 写成 


ROD = 专 1f- 有 = -AGOyl (5.103) 


工 
友 





其 中 Nx 1 的 向 量 了 为 
= [RD) 7) xD 
我 们 可 以 进一步 将 式 (5.95) 也 写成 矩阵 形式 
了 =f+3 《5.104) 
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其 中 鱼 = elyee 和 sw 
因此 ， 将 式 (5.104) 代 人 式 (5.103) 中 并 展开 ， 本 得 
RE(A) = 到 1 GE-AGCAD))E- ACX)s 1? 





《5.105) 
= 坟 1G ACT -和 eaACOG -ADDE+ 二 1ACDel 


其 中 工 是 一 个 六 x 由 的 单位 年 阵 、 为 求 RN 的 期 音 值 ， 注 意 下 述 用 点 ， 

，” 式 (5.105) 的 右边 第 一 项 是 一 个 常数 ， 因 此 它 不 受 期 望 算 子 的 影响 。 

” 由 式 (5.9%) 可 知 ， 第 项 的 期 望 为 零 。 

。 纯 量 ‖ A(x)s | 的 期 望 为 

严 [ | A(AX)s1 7] = 大 [erATCOADJACA)8] 
= 如 j 瑟 [BA7CONDA(AD)8 = itrLsrATOADACA)S] | 

其 中 我 们 首先 用 到 了 纯 量 的 迹 等 于 纯 量 本 身 的 性 质 ， 然 后 交换 了 期 望 运算 和 求 迹 运算 的 
次 序 。 

接 下 来 我 们 利用 邱 阵 代数 中 的 如 下 规则 : 给 定 两 个 具有 相 容 维 数 的 御 阵 下 和 C，BC 的 
迹 等 于 CB 的 迹 。 令 B=e ，C= AT7(ON)A(A)E， 则 式 (5.106) 可 以 写成 等 价 形式 





《5.106) 





互 儿 ACE = 开 iuLAT(ONDA(A)ss7]l = omArCODACD] 《5.107) 
[上 式 中 的 最 后 一 行 恨 据 式 (5.97) 可 得 。 最 后 注意 到 Ar(ONJA(CN) 的 迹 等 于 下 (人 ) 的 迹 ， 则 
ET ACOOEI2] = ctr[A2()] 《5.108) 
将 这 三 项 结果 结合 起 来 ，R(X) 期 望 值 可 表示 为 
ELRC] = 太 1I-ACOYI + 号 a[ACD] 《5.109) 


但 是 ， 一 个 给 定数 据 集 的 均 方 误 差 &GA) 在 实际 中 并 不 好 用 。 办 为 式 (5.109) 中 需要 问 归 
函数 护 x) 的 知识 ， 它 是 有 待 重建 的 函数 我 们 引 人 如 下 定义 作为 &(N) 的 估计 (Cuaven and 
柚 ahba,1979) : 




















RD = 放 G-AD)7P + 和 SAO (0 

它 是 无 信 估 计 ， 因 此 (按照 导出 式 (5.109) 所 述 的 宪 做 过 程 ) 我 们 可 证 明 
2[RC)] = ECRCO] (5.111) 

所 以 ， 使 估计 直 ( 最 小 的 和 值 可 以 作为 正则 化 参数 的 一个 好 的 选择 。 


广义 交叉 确认 


使 用 估计 良 (X) 的 一 个 缺陷 是 它 要 求知 道 品 声 的 方差 2 ， 在 实际 情况 中 ,om 通常 是 未 知 
的 。 为 了 处 理 这 种 傅 况 ， 下 面 我 们 将 介绍 广义 交叉 确认 ， 它 最 单 赴 由 Craven and Wahba 
(1979) 提 出 的 。 

我 们 从 修改 通常 的 交叉 确认 的 留 一 形式 (在 第 4 章 描 述 ) 开 始 米 处 理 这 个 问题 。 具 体 地 ， 
令 下“(%) 为 使 泛 明 








， 
引 P = 二 号 [有 GD) 了 + 二 1DFGOo (5.112) 


3 
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最 小 化 的 呆 数 ， 其 中 标准 误差 项 中 省 略 了 第 天 项 [ye - 及 ( 双 )。 


通过 轩 出 这 一 项 ， 我 们 将 


用 玖 “(x) 预 报 缺损 数据 点 y 的 衣 0 4 多 数 入 的 好 坏 。 央 此 ， 我 们 可 以 引入 性 能 度量 


ICA) = 到 袜 r 一 有 全 


(5.113) 


Am(C 仅 依赖 于 数据 点 涉 身 。 这 样 入 的 普通 交叉 确认 估计 即 为 使 入 () 最 小 化 的 函数 (Wahba， 


1990 )。 
(xc ) 





-个 有 用 的 性 质 是 如 果 用 褒 
Jr 使 (5. 品 ) 的 原始 Tikhonor 详 函 &( 刀 ) 最 小 则 天 (mw ) 就 是 


测 到“ (xs ) 来 代 从 数据 点 六 的 值 ， 使 用 数据 点 y ， 


























和 
所 呈 的 解 ， 计 个 性 质 忆 遇 对 子 全 一 个 输入 向 量 二 人 站 的 最 小 化 天 孝 忆 线性 依 须 于， 
这 使 我 们 有 

Go = RD) 0) (5.H4) 
由 式 (5.100) 所 定义 的 影响 矩阵 A()) 的 分 基 ， 我 们 很 容易 看 出 
2 = aa) (5-115) 
其 中 m 人 中 影响 矩阵 A(A) 对 角 线 上 的 第 二 个 元 素 ， 将 趟 (5.115) 代 入 式 (5.114) 中 并 角 
8 (xs ) 的 方程 ， 可 得 
玖 (mw) = 王 全 人 = 中 2 四 网 (5.116) 
将 式 (5.116) 代 人 式 (5.113) 中 ， 我 们 就 可 重新 定义 内 CN) 为 

项 WO) = 广 [和 让 人 (5.117) 

但 是 ， 对 于 不 同 的 上。aw(X) 的 值 是 不 同 的 ， 这 说 明 不 同 的 数据 点 在 矶 ()) 中 具有 不 同 的 作 








用 。 为 了 避免 通常 的 交叉 确认 的 这 一 特 4 


生 ，Craven and Wahba( 1979) 通 过 坐标 旋转 避 - 引 人 了 


广义 交叉 确认 (generalized cross-validation,GCV )。 特 别 地 ， 式 (5.117) 中 的 而 CA) 改变 为 





了 


1 刀 ) 
VOD = 误 袜 RS IE ] 《5.018) 
其 中 ， 权 系数 wm 出 
1-auC) 
oo 一 ER (5.119) 
定义 。 这 样 广义 交叉 确认 数 Y(X) 就 变 为 
二 忆 [m -总 Co) 
TO = 一 全 (5.120) 
[el- AGO 引 
最 后 ， 将 式 (5.100) 代 入 式 (5.120)， 可 得 
1 
元 |- AGOD)71 
YA = 一 (5.121) 
[ 翅 ai 一 和 (和 ) ] 
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上 式 在 计算 上 仪 依赖 于 和 数据 有 关 的 量 。 
广义 交叉 确认 函数 VIX) 的 最 优 性 
令 和 表示 广义 伙 叉 确认 丽 数 YX) 期 望 值 的 最 小 化 两 数 。 广 义 交 叉 确 认 的 期 望 无 效 度 可 定义 为 


。 匹 [ RON) ] 
7 RON (5.122) 
其 中 有 CN) 是 由 式 (5.99) 定 义 的 数据 集 的 均 方 误 益 。 自然 ， 产 的 渐进 值 满足 条 件 
Ji@ 六 = 1 《5.123) 


换 句 话说 ， 对 于 一 个 很 大 的 凡 ， 使 失 A) 最 小 的 X， 辐 时 也 使 R(A) 接 近 最 小 的 可 能 值 ， 这 使 
得 区 成 为 一 个 很 好 的 估计 和 的 上 具 。 


评论 小 结 


一 般 的 想法 是 选择 一 个 使 在 整个 数据 集 上 的 均 方 益 RX) 最 小 化 的 入 值 。 但 是 这 一 想 活 
不 能 直接 实现 ， 因 为 丸 (A) 中 包含 有 未 知 的 回归 函数 zgz)。 因 此 ， 在 实际 中 我 们 就 要 分 两 种 
可 能 性 来 处 理 : 
， 如 果品 声 方差 " 已 知 ， 我 们 就 选择 使 式 (5.110) 的 估计 真 (最 小 化 的 和 作为 最 佳 值 ， 
这 里 所 谓 的 最 佳 是 指 它 也 使 R(N) 最 小 化 。 
”如 果 吓 未知 ， 我 们 可 以 选择 使 得 式 (5.121) 的 广义 交叉 确认 函数 Y(X) 最 小 化 的 入 和 作 
为 好 的 选择 ， 当 N- 时 ， 这 个 可 以 使 期 望 均 方 误差 逼近 其 最 小 可 能 值 。 
值得 注意 的 是 ， 使 用 广义 交叉 确认 方法 估计 和 所 依赖 的 理论 是 渐 近 的 。 只 有 当 所 得 的 数据 集 
大 到 能 使 信号 和 噪声 相 分 离 的 程度 ， 这 种 方法 才能 希望 得 到 令 人 满意 的 结果 。 
在 实际 使 有 中， 广义 交叉 确认 方法 对 于 非 齐 次 方差 和 非 Causs 噪声 情况 ， 表 现 出 很 强 的 
重 棒 性 (Wahba,1990 )。 但 是 如 果 噪 声 过 程 是 高 度 相 关 的 ， 这 种 方法 往往 得 不 到 满意 的 正则 
化 参数 和 的 估计 。 
最 后 需要 说 明 的 是 广义 交叉 确认 甬 数 的 计算 问题 。 对 于 一 个 给 定 的 正则 化 参数 的 试验 信 
X， 求 式 (5.121) 中 分 母 [r[I- A(A)]/A 了 将 是 计算 Y(A) 中 计算 量 最 大 的 部 分 。 在 ahba et ， 
《1995) 中 描述 的 "随机 化 迹 方法 "可 以 用 于 计算 afA(A)]; 这 种 方法 可 用 于 超大 规模 的 系统 。 


5.10 RBF 网 络 的 逼近 性 质 


第 4 章 讨论 了 多 层 感知 器 的 通 近 性 质 。 与 多 层 感知 器 类 似 ， 径 向 基 郑 数 也 具有 优良 的 各 
近 特 狂 。RBF 网 络 族 足够 大 ， 它 可 以 在 一 个 紧 集 上 一 致 逼近 任何 连续 函数 |” 。 


通用 盈 近 定理 
令 6: "一 加 是 一 个 可 积 的 有 界 连 续 函 数 ， 目 满足 
| ceouxz0 
伪 9。 表示 一 个 RBF 网 络 族 ， 它 由 睫 数 P，Rm -> 组 成 ， 其 中 


Ex) = 习 uc{ 工 = 匡 
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上 式 中 ec> 0， 对 所 有 的 并 = 1 2，…，mr 有 如 和 局 且 4ER。 这 样 ， 我 们 就 可 叙述 RBF 
网 络 的 通用 通 近 定理 如 下 (Partk and Sarjberg,1991) 
对 任何 输入 -给 出 映射 丕 教 FIx)， 存 在 一 个 RBF 网 络 ， 其 中 心 集合 为 ln， 公共 宽度 为 
a>0, 使 得 由 该 RBF 网 络 实现 的 输入 输出 映射 函数 F(x) 在 古 (PE[1,2]) 范 数 下 接近 于 Fax)。 
注意 在 通用 表 近 定理 中 ， 并 不 要 求 核 6: 民 ” 一 民 具 有 径 向 对 称 性 ， 因 此 该 定 埋 强 于 
RBF 网 络 的 必要 性 。 最 重要 的 是 该 定理 在 实际 应 用 中 为 使 用 径 向 基 函 数 设计 神经 网 络 提供 了 
理论 基础 。 


















































维 数 灾 { 再 讨论 } 

除了 RBF 网 络 的 通用 有 勾 近 性 质 外 ， 我 们 还 必须 考虑 这 种 神经 网 络 所 能 达到 的 珊 近 率 。 
在 第 4 章 的 讨论 中 ,我们 知道 一 类 逼近 函数 的 加 有 复杂 度 与 比率 mo/s 成 指数 增长 关系 ， 
中 mo 是 答 人 维 数 ( 即 输入 空间 的 维 数 ) ，* 是 光 洪 度 指 数 (度量 加 在 特定 下 近 函 数 类 中 的 盟 近 
函数 上 的 约束 数目 )。HRelman 的 维 数 实 理论 告诉 我 们 ， 不 管 你 采用 什么 样 的 逼近 技术 ， 如 果 
光滑 度 指数 * 维持 常数 ， 则 达到 具有 某 一 规定 的 精确 度 的 通 近 肯 数 所 需 的 参数 数 与 输入 维 数 
ma 成 指数 增长 关系 。 要 想 达 到 其 一 与 输入 维 数 mo 无 关 收 伍 率 ， 认 而 避免 维 数 灾 ， 惟 一 的 
办 法 就 是 使 光滑 度 指 数 ， 与 通 近 函数 的 参数 数目 一 起 增长 使 其 弥补 复杂 度 的 增加 。 这 一 点 在 
表 5-3 说 明 ， 摘 自 Cirosi and Anzellotti( 1992)。 表 5-3 总 结 想 要 得 到 独立 于 输入 维 数 m 的 收 
伍 率 ， 用 多 层 感知 器 逼近 技术 及 RBF 网 络 通 近 技术 时 ， 其 蚌 数 空间 所 应 满足 的 约束 。 当 然 ， 
加 于 这 两 种 通 近 技术 的 约 东 各 不 相同 ， 这 反映 它们 所 遵循 的 实现 公式 的 不 周 。 在 RBF 网 络 
情形 ， 结 果 在 Soboley 函数 空间 : 忆 成 立 ， 其 中 的 男 数 直到 2m > mu 阶 的 导数 是 可 积 的 。 换 句 
话说 ， 要 求 鼻 近 函数 导数 可 积 的 阶 数 随 着 输 人 维 数 mu 的 增加 而 增加 ， 以 使 收 伍 率 与 mo 无 
关 。 如 第 4 章 中 的 解释 ， 多 层 感 知 圳 模型 有 相似 的 约 东 ， 但 以 相当 隐 了 上 的 方式 。 从 表 5-3 得 
到 的 结论 可 陈述 如 下 : 

在 多 层 感知 训 和 RBF 网 络 中 可 实现 的 逼近 函数 空间 中 ， 随 着 输入 维 数 mo 的 增加 ， 空 间 
的 约束 也 将 增加 。 
最 后 的 结果 是 无 论 使 用 多 层 感知 器 或 RBF 网 络 的 神经 网 络 技术 还 是 使 用 其 他 具有 类 似 特性 
的 非 线性 技术 都 不 可 能 打破 维 数 灾 。 


表 53 具有 相同 的 收 仇 率 OI1/ mi ) 的 两 个 迁 近 技术 和 它们 相应 的 函数 空间 ， 其 中 m 为 隐藏 空间 的 大 小 























函数 空间 范 数 各 近 枝 术 
人 多 民 由 知 : 
51 Fa < = 其 中 Fe) 为 允 近 函数 F(0 的 LO) oo - 冯 eveer 1 
Fourier 变换 
其 中 8(、) 为 xi 器 电 数 。 
(byRBF 网 络 ， 


其 有 直到 2m > me 阶 可 积 导 数 的 丽 数 组 成 的 Subulev 空 到 
间 有 (了 习 ) 
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样本 复杂 性 、 计 算 复 杂 性 及 泛 化 能 力 的 关系 


实际 上 我 们 所 拥有 的 数据 量 是 右 限 的 而 不 足 无 限 的 ; 在 讨论 中 如 果 不 考 虑 到 这 … 点 ， 那 
么 关于 逼近 问题 的 讨论 是 不 完全 的 。 同 样 地 ， 我 们 所 建立 的 神经 网 络 其 计算 复杂 性 也 是 有 限 
的 ， 而 不 尾 无 限 的 。 所 以 ， 如 第 2 章 所 讨论 的 ， 对 于 在 一 个 有 限 的 蔬 知 样本 数据 上 训练 和 在 
以 明 末 遇 到 的 数据 上 测试 的 神经 网 络 ， 其 泛 化 误差 包括 两 部 分 。 一 部 分 称 为 逼近 误差 ,来 源 
于 神经 网 络 表 示 一 个 目标 函数 的 能 力 是 有 限 的 。 另 一 部 分 我 们 称 之 为 估计 误差 ， 它 来 源 于 训 
练 样本 中 所 包含 的 目标 函数 的 信息 足 有 限 的。 使 用 这 样 的 分 解 ，Niyogi and Cirosi( 1996) 推导 
出 用 隐藏 层 大 小 及 训练 样本 大 小 表示 的 Causs 型 RBF 网 络 的 泛 化 误差 的 界 。 他 们 推导 的 结果 
是 针对 用 式 (5.95) 所 描述 的 一 种 模型 学 习 一 个 属于 某 个 Sobolev 空间 的 回归 函数 的 情况 。 

这 个 办 使 用 第 2 章 描述 的 PAC 学 习 的 术语 可 邹 述 如 下 (Niyogi and Cirosi,1996)， 

令 6 表示 具有 mo 个 输入 ( 洲 ) 节点 和 m, 个 隐藏 单元 的 一 类 Causs 型 RBF 网 络 . 令 7x) 
表示 属于 其 个 Sobaiev 空间 的 回归 卫 数 。 假 设 训 练 样本 5 = 15x ,) 上 岂 中 基 于 灰 z 的 回归 模 
型 呵 随 机 抽取 得 到 的 。 那 么 ， 对 于 任 一 置 估 参 数 8SE (0,.1]， 由 交 络 产 牛 的 泛 化 误差 的 上 办 
为 
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o( 寺 ) + of oogtmn + | 4 (5.124) 
的 概率 大 于 1- io 
由 式 (5.124) 可 得 以 下 推论 : 
。 只 有 当 了 用 藏 单 元 的 个 数 mm 增长 的 速度 远 比 训练 样本 的 大 小 克 的 增长 速度 慢 时 ， 泛 
化 误差 才能 趋向 于 零 。 
。 对 于 给 定 的 训练 样本 数 六 ， 隐 藏 单元 的 最 佳 数 日 mm 具有 如 下 性 质 (参见 习题 5.11) 
ec 《5.125) 
。 RBF 网 络 所 展现 的 收敛 率 O(LHmi ) 与 Barmn(1993) 导 出 的 以 sigmoid 函数 作为 激活 函 
数 的 多 层 感 知 器 的 收敛 率 是 类 伺 的 ;参看 4.12 节 的 讨论 。 


5.41 RBF 网 络 与 多 层 感 知 器 的 比较 


径 向 基 函 数 (RRF) 网 络 与 多 层 感 知 器 (MLP) 都 是 非 线 性 的 层 状 前 馈 网 络 的 例子 。 它 们 都 
是 通用 逼近 器 。 所 以 ， 毫 不 奇怪 对 于 一 个 特定 的 MLP 总 存在 一 个 RBF 网 络 能 够 精确 的 模仿 
它 ， 反 之 亦 然 。 然 而 ， 这 两 种 网 络 在 几 个 重要 方面 有 存在 着 不 同 之 处 。 

1. 一 个 RBF 网 络 (在 其 最 某 本 的 形式 中 ) 只 具有 一 个 隐藏 层 .而 一 个 MLP 却 可 以 有 一 个 
或 者 多 个 隐藏 居 。 

2. 典型 地 ， 一 个 MLP 位 于 隆 藏 层 或 输出 层 的 计算 结 点 ， 其 神经 元 模型 是 相同 的 。 而 
RBF 网 络 隐藏 层 中 计算 节点 与 网 络 输出 层 中 节点 是 相当 不 同 旦 作用 也 不 一 样 。 

3,.RBF 网 络 的 隐藏 层 是 非 线性 的 ， 而 输出 户 是 线 性 的 。 但 是 MLP 作为 模式 分 类 器 ， 其 
隆 层 和 输出 层 都 是 非 线性 的 。 当 MT? 用 于 解决 非 线性 回归 问题 时 ， 线 性 输出 层 通常 是 好 的 
选择 。 

4.RBF 两 络 每 一 隐藏 单元 的 激活 函数 的 自 变量 都 要 计算 输入 向 量 和 该 单元 的 中 心 之 间 的 
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Ruelid 范 数 (距离 )。 同 时 ，MILP 隐藏 单元 的 激活 函数 却 只 由 计算 输入 向 量 和 与 该 作 茂 单元 相 
关 的 权 值 向 量 的 内 积 - 
5.MLP 建 立 . 个 输入 -输出 映射 的 全 局 和 逼 近 。 另 一 方面 ，RBF 网 络 却 尼 以 指数 衰减 的 局 
部 非 线性 (如 Gauss 函数 ) 来 局 部 通 近 一 个 非 线性 输入 ~ 输出 映 复 。 
结果 这 意味 着 当 坎 近 一 个 非 线 任 的 输入 -输出 映射 时 ， 在 相同 的 精度 要 求 下 ，MLP 寡 要 的 参 
数 数 比 RBF 网 络 所 需要 的 参数 数 少 。 
RBF 网 络 输出 单元 的 线性 特性 说 明 这 样 的 网 络 与 Rosenblat 感知 器 的 联系 比 和 与 多 层 感 
知 器 的 联系 更 紧密 。 然 而 ，RBF 网 络 与 感知 器 是 个 同 的 ， 因 为 它 能 实现 对 输入 空间 进行 任意 
的 非 线性 变换 。 这 一 点 在 XOR 问题 上 已 经 说 明 得 很 清楚 ， 因 为 XOR 问题 不 能 用 任何 线性 感 
知 器 来 解决 ， 但 能 由 RBF 网 络 来 解决 。 


5.12 核 回归 及 其 与 RBF 网 络 的 关系 


目前 为 止 给 出 的 RBF 网 络 的 理论 都 是 建立 在 插值 的 概念 上 的 。 在 这 一 节 中 ,我 们 将 采 
用 另 一 种 观点 ， 即 建立 在 密度 估计 的 概念 之 上 的 核 回 归 {kemel regression) 的 观点 。 

具体 地 ， 再 次 考虑 式 (5.95) 的 回归 模型 ， 为 了 方便 夜 达 将 其 重 写 在 下 面 ， 

和 = 所 ) + L = 1,2，Y 

我 们 可 以 取 某 一 点 x 附近 的 观测 值 ( 即 模型 输出 y 的 值 ) 的 均值 作为 未 知 同 归 阔 数 FLx) 的 合 
理 估 计 。 但 是 ， 为 了 达到 这 一 目标 ， 局 部 平均 必须 限制 在 x 的 一 个 较 小 的 邻 域 内 ( 即 接受 
域 ) ， 因 为 一 般 情 况 下 ， 离 x 较 远 的 区 域 将 会 有 不 同 的 观察 值 。 进 一 步 ， 从 第 2 章 给 出 的 讨 
论 我 们 得 到 妃 切 等 于 给 定 x 条 件 下 y 的 条 件 均值 ( 即 在 x 上 y 的 回归 ) ， 表 示 为 

Fax) = 亚 [y1x] 
































利用 随机 变量 的 捧 饪 公式， 我 们 有 
AH = 坊 人 7 9 才 (5.126) 


其 中 彤 (y!z) 是 了 以 x 为 条 件 的 条 件 概率 密度 函数 ( probability density funetion,pdf )。 由 概率 
论 ， 我 们 有 





方 (1 呈 ) =- 宪 全 (5.127) 


上 式 中 六 (本 是 天 的 pdf 太 rCx,y) 是 和 和 了 了 的 联合 pdf。 因此 ， 将 式 (5.127) 代 人 式 
《5.126)， 我 们 得 到 回归 函数 的 下 列 公 式 : 

和 全 rGoDd 
RX) = 一 RD 《5,128) 
我 们 感 兴趣 的 是 联合 概率 密度 状 数 户 .*(x,y) 术 知 的 情况 。 我 们 所 知 的 只 有 训练 样本 
jx 为 了 估计 疡 ,rCx,y) 以 及 六 (z)， 可 以 应 用 一 个 非 参 数 估 计 器 ， 通 称 为 Parzen- 
Rosenblatt 密度 估计 器 (Rosenblatt, 1956, 1970; Parzen , 1962 ) 。 形 成 该 估计 器 的 基础 是 核 ， 用 符 
号 故 (z) 表 示 ， 它 具有 与 概率 密度 函数 相同 的 性 质 ; 

。 核 天 (xX) 是 一 个 关于 和 的 连续 有 界 的 实 函 数 ， 它 关于 原点 对 称 ， 且 在 原点 取得 最 大 
值 。 
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*， 在 核 天 (KE) 的 曲面 下 的 总 体积 等 于 1; 即 对 于 一 个 严 维 的 向 量 X 有 
| keou= 1 (5-129) 
假设 到，…，xw 是 独立 网 分 布 的 随机 向 量 ， 我 们 可 以 定义 记 ( 台 的 Parer-Rosenblat 密度 
估计 为 
六 (am) = 二 半 xk[( 瑟 ) xxE 网" (5.130) 
其 中 光滑 度 参 数 声 是 正 数 ， 称 为 带宽 或 简称 为 党; 疡 控制 着 核 的 宽度 - (请 注意 不 要 将 这 里 
的 二 与 5.5 节 中 定义 Prechet 导数 的 大 相 混 淆 。)Parzen-Rosenblatt 密度 估计 器 的 - -个 重要 件 质 
是 它 是 相 容 估计 器 !( 即 渐进 无 偏 的 ) ， 意 味 着 如 果 选 择 声 = i(W) 为 彤 的 函数 使 得 
Jma(w) = 0 
那么 血本 产 C0] = 六 (9 
为 了 上 式 成 立 ,，x 必须 是 户 (z) 中 的 连续 点 。 
用 与 式 (5.130) 描 述 的 类 似 方法 ， 我 们 可 以 得 到 联合 概率 密度 郑 数 大，(x,y) 的 Paren- 
Rosenbiatt 密度 估计 如 下 : 
友 rGcy) = 二 要]K(2 攻 ,ze 本 民 (5.131) 
对 思 *(x，9) 作 关于 y 的 积分 ， 5 29) 的 入 (xz) ， 且 我 们 应 该 如 此 。 而 且 


三 y 六 rsy)ay = 硕 5x k[( 王 至 上 国 x( 后 2 
对 上 式 作 变量 代 换 ， 令 z= (7 -六 )/7， 再 利用 核 天 (') 的 对 称 性 可 得 
矿 壤 xy)dy = 本 袜 xk[2 夺 ) (5.132) 


因此 ， 将 式 (5.132) 和 (5. 130) 分 别 作为 式 (5,128) 的 分 子 和 分 母 的 估计 ， 消 去 相同 项 后 ， 我 们 
可 得 同 妆 函数 /3) 的 下 列 估计 ; 














号) 


买 一 忆 
为 了 清晰 起 见 ， 上 式 中 我 们 将 分 母 中 的 求 和 下 坏 守 换 为 /。 就 像 一 般 的 RBF 网 络 ， 由 式 
《5.133) 定 义 的 核 回归 估计 器 F(x) 是 一 个 通用 逼近 器 。 
我 们 可 以 有 了 两 种 方式 来 分 析 有 逼近 函数 PC(x): 
1.Nadaraya-Watson 回归 估计 器 。 定 义 归 一 化 加 权 邓 数 





F(x) = 灰 x) = (5.133) 














天 | 避 一 忆 
本 (xD) = 本 居 = 12 《5.134) 
冯 < 人 5 
其 中 了 Ww (xz) = 1, 对 所 有 的 区 (5.135) 





我 们 可 将 式 (5.133) 所 示 的 核 回归 舍 计 简写 成 
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F(x) = 》) 儿 、，(z 了 (5.136) 
人 
它 将 瑟 m) 描 述 为 观察 值 y 的 加 权 均 值 。 式 (5.136) 给 出 的 加 权 两 数 ,(g) 形 式 是 出 
Nadarayat 1964] 利 Watson 1964) 提 出 的 ， 所 以 式 (5.136) 所 未 的 逼近 两 数 称 为 Nadarara-Watson 
回归 估计 器 (Nadaraya- 妈 atson regression estimator,NWREJL 。 
2. 归 一 化 的 RHBk 网 络 。 对 于 第 一 种 观点 ， 我 们 假设 核 K(x) 是 球 对 称 的 ， 这 样 我 们 就 可 
以 令 (Kryyzak et 避 . ,1996 ) 











XXX, 上-x | 罗 

k( 2 于 - kx( -5 对 所 有 (5.137) 

这 里 | ,人 才 示 包 含 向 量 的 欧 几 里 德 范 数 。 相 应 地 我 们 定义 归 -- 化 径 向 基 函 数 为 

sis 
刘 ,(x,K) = - 去 0 《5.138) 
袜 厅 和 汉 四 一 ) 
其 中 ， 对 所 有 的 有 

立 wCox) = 1 《5.139) 


亚 v(xx ) 中 的 下 标 w 表示 使 用 归 一 化 (normalization) 。 
对 于 这 里 所 讨论 的 回归 问题 。 我 们 可 以 看 出 应 用 于 基 画 数 惠 ,(x，x; ) 的 “线性 权 值 "w ， 就 图 
回归 懂 型 中 对 应 于 x 的 观察 值 六 。 因 此 令 
故人 
我 们 可 以 重新 将 式 (5.133) 所 示 的 通 近 函数 写成 一 般 形式 
天 (x) = 六 woox) 《5.140) 


式 (5.140) 表 示 的 是 -个 归 一 化 RBF 网 络 的 输 人 - 输出 师 射 (Moody and Datten, 1989;Xu et al ， 
1994)。 注 意 ， 对 所 有 的 关 和 大 





0 三 惠 (ZX) < 1 (5.143) 
网 此 ， 孚 (xz,E) 可 以 解释 为 以 x 为 条 件 的 由 输入 向 量 x 描述 的 事件 的 概 涵 。 
式 45.138) 的 归 一 化 径 向 基 责 数 下 *(x,x, ) 与 一 般 径 向 基 函 数 的 不 同 之 处 在 于 更 v(x,) 有 一 
个 组 成 归 一 化 因子 的 分 母 。 归 一 化 因子 是 关于 输入 向 量 x 的 固有 pdf。 因 此 ， 对 所 有 的 x 基 画 
数 亚 v(xx) 的 六 项 之 和 等 于 1， 即 式 (5.139)。 与 此 相对 ， 一 般 RBF 网 络 的 基 ( 格 林 ) 函 数 
〈 式 5.57) 却 不 一 定 满 足 这 个 条 件 -。 
这 里 关于 式 (5.138) 描 述 的 输 和 人 - 输出 映射 PC) 的 推导 应 用 了 密度 估计 的 概念 。 与 超 曲 
面 的 重建 问题 相似 ， 密 度 估计 是 一 个 不 适 定 的 问题 - 为 了 使 其 适 定 ， 必 须 应 用 正则 化 的 某 种 
形式 。 我 们 可 以 在 正则 化 理论 (Vapnik,1982 ) 的 框架 下 推导 Pamen-Rosenblatt 密度 估计 器 ， 从 
而 推导 Nadaraya-Watson 国 归 估 计 器 当然， 密度 估计 中 的 代价 认 函 与 式 (5.23) 的 确定 性 
Tikhonor 泛 丙 有 所 不 同 。 密 度 估计 中 的 代价 泛 函 包括 两 项 : … 个 包含 未 知 概率 密度 昕 数 的 误 
差 平方 项 和 一 个 稳定 泛 函 的 适当 形式 。 
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多 元 Gauss 分 布 


一 般 说 来 可 以 选择 各 种 各 样 的 核 画 数 。 但 是 ， 理 论 和 实际 的 考 豆 限 制 了 我 们 的 选择 。 与 
格林 函 教 一 样 ， 广 泛 地 使 用 多 元 Gauss 分 布 作为 核 函数 ， 





K(x) = 动 地 ol|- -一 

其 中 ，ma 是 输入 向 必 x 的 维 数 。 很 明显， 式 (5.142) 所 示 的 核 K(x) 具 有 球 对 称 性 。 假 设 使 
用 相同 的 宽度 扩展)a，s 与 光滑 参数 疡 对 秀一 个 Gauss 分 布 的 作用 相同 ， 昌 以 x, 作为 核 困 
数 的 中 心 ， 我 们 可 乞 成 





2 
lx -| ) = 1 2， 《5.143) 


习 一 工 1 
k[( 瑟 三 ) = | 了 
内 此 ， 使 用 式 (5.143) ，Nadaraya- Watson 回归 估计 可 以 气 成 (Specht，1991) 
和 
站 -公款 昌 
TCRTaT 《5.144) 
oo|- 人 】 
2 


FFCX) = 





其 中 分 母 项 表示 Paruen-Rosenblatt 帘 度 估计 医 ， 由 闪 个 以 数据 点 汪 ， 更 ，…，xsw 为 中 心 的 多 
元 Gauss 分 布 之 和 构成 : 

相应 地 ， 将 式 (5.143) 代 人 (5.138) 和 (5.140)， 可 以 得 到 归 一 化 RBF 网 络 的 输入 - 输出 
轴 射 函数 的 如 下 形式 : 





= (5.145) 
宇 ee 人 一 -这 ) 
在 式 (3.144) 和 式 (5.145) 中 ， 归 一 化 径 向 基 函 数 的 中 心 与 输入 数据 点 1x ji 一 仇 。 与 一 
般 径 向 基 机 数 相同 ， 可 以 使 用 较 小 数量 的 归 一 化 径 向 基 男 数 ， 它 们 的 中 心 看 作 自 由 参数 可 以 
根据 某 种 启发 式 方法 选择 ， 或 者 可 以 按 基 种 原则 确定 (Poggie and Cirosi,1990a)。 


5.13 学 习 策略 


如 果 不 考 虑 其 理论 背景 ， 对 径 向 基 示 数 (RBF) 网 络 采取 的 学 习 过 程 可 作 如 下 分 析 。 与 网 
络 和 输出 单元 相连 的 线性 权 值 与 隐藏 单元 的 非 线性 激活 函数 相 比 是 在 一 种 不 同 的 “时 间 尺 度 " 上 
更 新 的 。 因 此 ， 当 隐藏 尽 的 激活 函数 根据 某 种 非 线性 最 优 策略 进行 缓慢 更 新 的 时 候 ， 输 出 权 
值 却 是 根据 线性 最 优 策略 进行 快速 调整 。 重 要 的 是 ,在 RBF 阅 络 中 ， 不 同 的 层 起 着 不 同 的 
作用 。 因此， 对 于 隐藏 层 和 输出 层 采用 不 同 的 最 优 策略 是 合理 的 ， 也 许可 以 使 用 不 同 的 时 间 
尺度 来 实现 (Lowe,1991a)。 

根据 网 络 径 向 基本 数 中 心 的 确定 方法 不 同 ， 在 设计 RBF 网 络 上 有 不 同 的 学 习 策 略 。 这 
里 我 们 将 介绍 四 种 方法 。 前 二 种 设计 策略 是 建立 在 插值 理论 的 基础 之 上 的 。 最 后 一 种 设计 策 
略 将 结合 止 则 化 理论 和 核 回归 估计 理论 的 理论 。 









































| < (5.142) [ 玛 
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1. 随机 选取 固定 中 心 
最 简单 的 方法 是 假设 定义 隐藏 单元 的 激活 范 数 是 固定 径 向 基 画 数 。 中 心 的 位 置 可 以 用 随 
的 方式 队 训 练 数据 集合 中 进取 。 如 果 训练 数据 是 以 当前 问题 的 奥 型 方式 分 布 的 ， 则 该 方法 
可 以 被 认 为 是 一 个 "明智 "的 方法 (Lowe,1989 )。 对 二 径 回 基 丽 数 本 身 ， 我 们 可 以 用 一 个 各 向 
同性 的 Gauw 函数 ， 尼 的 标准 伪 关 是 根据 中 心 的 散布 而 固定 的 。 特 别 地 ， 一 个 以 # 为 中 心 的 
( 归 一 化 的 ) 科 向 基 画 数 定义 为 

el-tl9 = ep -本 人 ze， -am 0516) 
中 m, 是 中 心 的 数目 ，d。. 是 所 选中 心 之 加 的 最 大 距离 。 可 以 看 出 ， 所 有 Cause 径 向 基 画 数 
的 标准 偏 关 ( 妈 宽度) 都 站 定 为 




















Ce 
V2m 
上 式 保证 每 一 个 径 向 基 函 数 都 不 会 太 尖 ， 也 不 会 太平 ， 这 两 种 极端 情况 部 应 该 尽 县 避 免 。 作 
为 (5.147) 的 另 - “种 选择 ， 我 们 也 可 以 在 数据 密度 较 低 的 区 域 上 使 用 个 别 放大 的 宽度 较 大 的 
中 心 ， 这 要 求 对 训练 数据 作 实 验 。 

在 这 种 方法 中 ， 惟 一 需要 学 习 的 参数 就 是 输出 层 上 的 线性 权 值 。 求 输出 权 值 的 一 个 直接 
的 方法 就 是 伪 道 法 (Broomhead and Lowe,1988 )。 特 别 地 ,我 们 有 (也 可 参看 式 (5.77) 和 式 
《5.78)) 


(5.147) 





G = 




















mw=Gd (5.148) 
中 d 是 训练 集合 中 的 期 望 响应 向 量 。 和 矩阵 G 是 算 阵 G 的 伪 道 ， 而 所 阵 G 定义 为 
G= 18 (5.149) 
其 中 
au = em- 晤 1 -和 上 全 = UL2 和 Ni = 2 (5.150) 
上 式 中 5 是 角 练 样本 中 第 个 输入 癌 量 。 
求 一 个 挫 阵 的 伪 道 的 所 有 计算 的 基础 是 奇异 值 分 解 (CSVD)(Colnb and Van Loan,1996): 
如 果 包 是 一 个 外 x 亲 阶 的 实 答 阵 ， 则 存在 正 交 答 阵 
U = |m,m…uvi 
和 V=ivmeoyatf 
使 得 U7GV = diag(a ,中 ak) ,天 =min( 对 ,N) 《5.151) 
其 中 和 呈 袜 >0 


逢 阵 了 的 列 向 量 称 为 @G 左 奇 异 向 量 ， 甜 阵 站 的 列 向 熏 称 为 各 右 奇 异 向 量 。o ,om ，…:Gor 称 为 


奇异 值 。 根 据 奇异 值 分 解 定理 ， 抢 阵 G 的 好 x w 阶 伪 道 定义 为 





Gr = VE U7 (5.152) 
其 中 五 "是 一 个 由 上 @ 的 奇异 值 决定 的 w x w 阶 和 矩阵 ， 
2 = une( 二 渤 | (5.153) 
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计算 抢 阵 伪 道 矩阵 的 有 效 算法 在 Goab and Van Loan( 1996) 中 有 详细 介绍 。 

有 趣 的 是 ， 棚 据 应 用 随机 选取 中 心 方法 的 经 验 表 明 ， 这 种 方法 相对 来 说 对 正则 化 的 使 用 
不 太 敏 感 ; 参看 习题 5.14， 它 使 用 这 种 方法 在 计算 机 上 实现 模式 分 类 。 这 种 性 能 提示 ， 从 
一 个 固定 大 小 的 大 规模 训练 集合 中 随机 选取 中 心 的 RBF 网 络 设计 方法 ， 就 其 自身 而 言 也 许 
就 是 -种 正则 化 的 方法 。 


2. 中 心 的 自 组 织 选择 


刚才 描述 的 回 定 中心 的 方法 主要 缺陷 号 为 了 达到 忻 能 的 满意 水 平 过 要 一 个 所 大 的 训练 集 
合 ， 交 服 这 一 限制 的 一 个 方法 就 是 使 用 一 种 泥 含 学 习 过 程 ， 包 括 下 而 两 个 不 同 的 阶段 (Moody 
and Darken, 1989;Lippmann ,1989b; Chen et al . ,1992)， 
。 自 组 织 学 习 阶 段 ， 它 的 目的 是 为 隐藏 层 径 向 基本 数 的 中 心 估计 一 个 合适 的 位 置 。 
。 监督 学 习 阶 段 ， 它 通过 估计 输出 层 的 权 值 完成 神经 网 络 的 设计 。 
虽然 可 以 用 批 处 理 来 执行 上 述 两 种 学 习 阶 段 ， 但 是 用 自 适应 ( 选 代 ) 的 方法 更 理想 。 
对 于 自 组 织 学 习 过 程 ， 我 们 需要 一 个 形 类 的 算法 将 所 给 的 数据 点 前 分 成 几 个 不 同 的 部 
分 ， 每 一 部 分 中 的 数据 都 尽量 有 相 网 的 性 质 。 一 种 这 样 的 算法 为 不- 均值 聚 类 算法 (Duda and 
Hart,1973) ， 它 将 径 向 基 画 数 的 中 心 放 在 输入 空间 % 中 重要 数据 点 所 在 的 区 域 上 。 令 m 表示 
径 向 基本 数 数目 ; m' 要 依靠 试验 来 次 定 取 何 种 适合 值 。 令 1t (za)ia, 表示 径 向 基 国 数 在 第 
于 次 迁 代 时 的 中 心 。 那 么 , 天 -均值 聚 类 算法 进行 如 下 ; 
1. 和 初始化。 选择 随机 值 作为 中 心 G(0) 的 初始 值 ; 惟一 限制 是 要 求 每 一 个 中 心 的 初 值 不 
同 。 将 中 心 的 欧 儿 里 德 范 数 保持 为 较 小 的 值 可 能 会 更 理想 一 些 。 
2. 抽取 祥 本 。 在 输入 变 间 多 中 以 某 种 概率 抽取 样本 向 量 x， 作 为 第 = 次 送 代 的 输入 向 
量 。 
3. 相似 匹配 。 念 有 xz) 表 示 输 和 向量 x 的 最 佳 匹 配 ( 竞争 获 胜 ) 中 心 的 下 标 值 。 第 ” 次 适 
代 时 按 欧 几 里 德 最 小 距离 准则 确定 才 (x) 的 值 : 
下 (K) = atgma| (ma) 一 舟 ( 呈 ) 用 ,大 = 1)2, va (3.154) 
其 中 必 人 fn) 表示 第 天 个 径 向 基 函 数 在 第 = 次 迭代 时 的 中 心 。 
4. 更 新 。 用 下 述 规则 调整 径 向 基 函 数 的 中 心 : 
tanyD - 人 开 一 


生 (m)， 其 他 情况 

其 中 1 是 学 习 率 ， 用 0<< 1。 

5. 继续 。 将 叶 的 值 加 1， 回 到 第 2 步 ， 重 复 上 述 过 程 ， 直 到 中 心 6 的 改变 基 很 小 时 为 
目 。 

这 里 所 说 的 下 -均值 聚 类 算法 实际 上 是 竞争 ( 胜 者 全 得 ) 学 习 过 程 的 一 种 特殊 情况 ， 它 通 
称 为 自 组 织 映 射 ， 我 们 将 在 第 9 章 中 详细 讨论 。 后 一 算法 也 适 于 实现 自 组 织 学 习 阶 段 。 

下 -均值 诸 类 算法 的 一 个 局 限 在 于 它 只 能 达到 依 闽 于 所 选中 心 蕊 值 的 局 部 最 优 解 。 因 
此 ， 计 算 资 源 就 有 可 能 浪费 ， 因 为 - 些 中 心 的 初 值 可 能 位 于 输 和 空间 中 稀少 数据 点 的 区 域 ， 
此 它们 没有 机 会 移 到 它们 所 希 的 新 位 置 去 。 最 终 的 结果 可 能 就 会 是 不 必要 的 大 网 络 。 为 了 
克服 传统 的 志 - 均值 聚 类 算法 的 局 限 ，Chen(1995) 提 出 了 使 用 一 种 增强 下- 均值 聚 类 算法 ， 
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该 算法 归功 于 Chinmunrueng and Stquin(1994)， 它 建立 在 变 差 加 伏 度 量 的 聚 类 基山 上 ， 可 以 使 
算法 收 剑 于 -个 最 优 结果 或 者 近似 最 优 结 果 ， 而 与 中 心 的 初始 位 置 无 关 。 

在 利用 上 大- 均值 聚 闫 算法 或 者 它 的 增强 形式 得 到 每 一 个 Causs 型 径 癌 基 函 数 的 中 心 及 其 

宽度 后 ， 混 合 学 习 过 程 余下 的 最 后 - ' 步 是 估计 输出 层 的 权 值 。 一 个 最 简单 的 估计 方法 就 是 在 

0 第 3 章 中 介绍 过 的 最 小 均 方 (EMS) 算 法 。 隐 藏 单 邢 产 生 的 和 输出 信号 向 量 构成 LMS 算法 的 输入 

向 量 。 注 意 ， 应 用 于 侦 藏 单元 的 上 - 均值 混 类 算法 和 应 用 于 和 输出 单元 的 LMS 算法 可 以 用 并 行 

的 方式 分 别 进 行 各 自 的 计算 ， 从 而 加 快 训 练 过 程 。 


3. 中 心 的 监督 选择 


在 第 3 种 方法 中 ， 径 向 基本 数 的 中 心 以 及 网 络 的 所 有 其 他 自由 参数 部 将 经 历 一 个 监督 学 
习 的 过 程 。 换 句 话 说，RBF 网 络 将 采取 其 最 一 般 的 方式 这 个 方法 的 自然 后 选 是 采用 误 盖 修 
正 学 习 过 程 ， 这 入 方 法 可 以 很 方 使 地 采用 梯度 下 降 法 ， 它 代表 LMS 算法 的 一 种 推广 。 

建立 这 种 学 习 过 程 的 第 一 步 是 定义 代价 皮 数 的 瞬时 值 


时 -二 (5.156) 


其 中 六 是 用 于 学 习 的 训练 样本 数 日 ，e, 是 误 益 信号 ， 定义 如 下 : 









































ls -es) (5.157) 


目标 是 找到 使 思 最 小 的 自由 参数 如， 和 马 "， 的 值 ( 后 者 和 范 数 加 权 怎 阵 C, 有 关 )。 最 小 化 
的 结果 列 于 表 5-4 中 ， 这 些 结果 的 推导 将 在 习题 5.13 中 作为 练习 留 给 读者 。 表 5-4 中 有 玫 
点 值得 注意 : 





表 5-4 ”线性 权 值 的 自 适 应 公式 和 RBF 网 络 中 心 的 位 置 和 散 布 7 
1. 线性 权 导 (输出 层 ) 





3 后 - 写 ct 1x -taley) 


加 (ar = 四 (na) 一 册 王 包 ， 12 


2. 中 心 位 置 (隐藏 居 ) 





， ， 
区 -2 玉 setls -ele 和 5 -409] 
tt 0D -中线 生 ， 12 
3. 中 心术 展 ( 隐 磊 层 》 
也 加 
元 et ol)Qin) 


QtCa) = [本 -tau 一 Cn)]7 
了 (n+D = Za) - 仙 区 
* 上 烦 eta) 是 输出 单元 ， 在 时 刻 = 时 的 误差 信 届 。 项 C{- ) 是 Green 函数 6(.) 关 于 它 的 生变 基 的 一 阶 导数 .。 
。 代价 函数 色 对 于 线性 权 值 w 来 说 是 凸 的 ， 但 是 对 于 中 心 上 和 矩阵 也 来 赔 却 呼 非 吓 
的 ; 在 后 一 种 情况 下 , 6 和 歹 ! 的 取 值 可 能 会 陷 人 参数 空间 的 上 的 一 个 局 部 最 小 值 
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处 。 

， 参数 由 ，ft 和 号 的 更 新 公式 中 的 学 习 率 应 为 不 同 的 秆 六 、 他 和 人 站。 

。 与 反 向 传播 算法 不 同 ， 表 5-4 所 列 的 RBF 网 络 的 梯度 下 降 法 中 没有 误差 反 向 传播 。 

。 梯度 向 节 a8/at 的 效果 和 聚 类 效果 类 似 ， 是 依赖 于 任务 的 (Poggio anqd Cimosi,1990a )。 

在 梯度 下 降 法 的 初始 化 过 程 中 ,通常 痢 希望 由 参数 空间 的 - -个 结构 化 初始 条 件 开始 ， 这 
一 条 件 限制 搜索 的 参数 空间 区 域 使 我 们 在 已 知 的 有 用 区 域 中 搜索 ， 这 可 以 道 过 标准 的 模式 分 
类 法 来 实现 (Lowe,199Ia )。 应 用 这 一 方法 ,收敛 到 仅 值 空间 非 期 望 的 局 部 最 小 值 的 叮 能 性 将 
减少 。 例 如 ， 我 们 可 以 从 -个 Gauss 分 类 器 开始 ， 该 分 类 器 假设 每 一 类 中 的 每 一 个 模式 都 是 
从 Causs 分 布 中 抽取 的 ; 基于 Bayes 假设 检验 过 程 的 模式 分 类 器 的 这 种 特殊 形式 在 第 3 章 中 
已 经 讨论 过 了 。 

在 讨论 的 这 个 阶段 出 现 的 问题 是 ; 白 适 应 选取 径 向 基 亲 数 的 中 心 的 位 置 能 得 到 什么 好 
处 ? 这 个 问题 的 答案 当然 依赖 于 实际 应 用 。 虽 然 如 此 ， 根 据 一 些 文献 报告 的 结果 ， 允 许 中 心 
移动 确实 能 得 到 一 些 实际 的 好 处 。Lewe(1989) 将 RBF 网 络 应 用 于 语音 识别 的 工作 结果 表明 ， 
如 果 要 求 最 小 的 网 络 配置 的 话 ， 用 非 线性 参数 优化 的 方法 是 有 利 的 。 但 是 ， 据 Lowe 所 吉 ， 
用 一 个 更 大 的 RBF 网 络 可 以 达到 同样 的 泛 化 效果 ， 这 里 所 谓 更 大 的 神经 网 络 就 是 隐藏 层 其 
有 更 多 固定 中 心 和 仅 用 线性 优化 的 方法 来 调整 输出 层 的 网 络 。 

Wettschereek 和 Dietterich(1992) 曾 经 对 应 用 固定 中 心 的 (Gauss 型 ) 径 向 基本 数 网 络 和 应 用 
可 调 中 心 的 广义 径 向 基 咕 数 网 络 的 性 能 作 过 比较 ， 在 后 一 种 情况 中 心 位 置 是 由 监督 学 习 确 定 
的 。 性 能 比较 是 对 NETtalk 任务 进行 的 。 最 早 的 NETtalk 试验 是 由 Sejnowski 和 Rosenber 
《1987) 使 用 多 层 感知 器 进行 的 ， 训 练 所 用 的 算法 是 所 向 传播 算法 ; 这 将 在 第 13 章 中 介绍 。 
Wettschereck 和 Dietterich 的 试验 目的 是 为 了 了 解 神经 网 络 是 如 何 将 英语 拼写 映射 为 语音 的 发 
音 。Wettsohereek 和 Dietterich 在 NETralk 上 所 作 的 试验 研究 可 以 小 结 如 下 : 

， RBY 两 络 (对 中 心 位 置 采 用 无 监督 学 习 ， 对 输出 权 值 向 量 采用 监督 学 习 ) 不 如 多 层 感 

知 器 模型 (采用 反 向 传播 算法 ) 推 广 得 好 。 

*。 广义 RBF 网 络 (中 心 位 置 与 输出 权 值 均 采用 监督 学 习 ) 的 泛 化 能 力 可 以 明显 好 于 多 层 

感知 器 模型 。 


4. 正则 化 严格 播 值 法 


结合 第 5.5 节 的 正则 化 理论 和 第 5.12 节 的 核 回 归 估 计 理 论 的 基本 原理 的 RBF 网 络 设计 
的 方法 在 Yee(1998) 描 述 。 该 方法 包括 组 合 利 用 以 下 四 个 组 成 部 分 : 
1. 径 向 基 函 数 6， 可 作为 (可 能 党 有 某 种 缩放 ) 一 致 ( 均 方 )Nadaraya-Watson 画 归 估计 
(NWRE) 的 核 。 
2. 对 角 输 人 范 数 加 权 和 矩阵 号 ， 对 具有 有 
卫 = diag( 下 jj) (5.158) 
的 所 有 中 心 是 共同 的 ， 其 中 六 ， 妨 ，…， 和 是 其 有 (缩放 后 ) 核 6 的 致 NWRE 的 每 个 维 的 
带宽 ， 如 同 以 前 设置 的 -- 样 ， 耐 mo 是 输入 空间 的 维 数 。 例 如 ， 我 们 可 以 没 玉 = mw 中，i = 1， 
2，…，mo， 式 中 上 表示 第 :个 输入 变量 的 样 木 方差 ， 它 是 从 已 知 的 训练 输入 数据 中 估计 而 
来 的 * 正 的 输 和 人 缩放 因子 m ,。,，… ,am 可 以 通过 适当 的 交 义 箭 认 (cross-validation .CV ?过 
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程 确 定 ， 如 在 5.9 节 解 释 的 一 样 。 
涉及 根据 式 (5.54) 训 练 线性 权 值 。 
4. 通过 渐 近 优化 的 方法 ， 例 如 式 (5.117) 所 示 的 交替 留 一 法 或 者 式 (5.121) 所 示 的 GCV 


3. 正则 化 严格 插值 ， 


法 ， 选 择 上 正则 化 参数 入 太 纳 放 因 子 w ， 呈 ,和 … 
。 选择 的 入 越 大 ， 则 吧 音 对 参数 测 





，aw 。 选择 的 参数 叮 说 明 如 下 ; 
是 的 干扰 就 越 大 。 


。 当 径 向 其 丽 数 是 一 个 单 蜂 值 的 核 画 数 ( 例 如 (Gauss 型 核 函 数 ) 时 ， 特 定 “ 的 值 越 小 ， 


则 整 


全 


对 该 输入 维 的 变化 就 越 迟 钝 。 
的 重要 程度 ， 从 而 在 需要 降低 红 











以 解释 如 














网 络 的 输出 对 相应 的 输入 维 越 壬 感 。 相 反 ， 若 某 个 w, 越 大 ， 则 整个 网 络 输 出 
此 ,我 们 可 以 通过 <, 的 选取 来 标明 每 一 个 输 人 变量 
数 ， 可 以 将 无 关 紧要 的 输入 维 删 去 。 
上 述 设计 过 程 的 合理 性 在 Yee(1998) 中 有 详细 的 讨论 。 我 们 选择 这 种 设计 方法 的 目的 可 
可 以 证 明 NWRE 与 一 种 特殊 类 别 的 正则 化 RBF 网 络 相对 应 .也 就 是 说 ， 对 于 








任意 的 NWRF， 我 们 都 可 以 构造 一 个 适当 的 正 则 化 RBF 网 络 序列 ， 当 其 正 列 化 参数 序列 jxv1 





随 着 N 训练 样本 的 大 小 ) 趋 向 了 





无 穷 而 (以 其 种 恰当 的 速率 ) 艳 向 于 励 穷 时 ，RBF 网 络 与 





NWRE 之 间 的 均 方 卷 和 绝对 误差 都 趋向 于 零 。 这 样 我 们 就 可 以 用 构造 的 RBF 网 络 来 和 逼 近 什 
意 的 NWRE。 在 另 一 方面 ， 当 ~ ，( 在 某 种 温和 的 条 件 下 ) 由 式 (5.99) 所 定义 的 风险 趋 癌 





于 (全 局 ) 均 方 误差 。 如 果 我 们 用 渐 近 最 优 参数 的 方法 来 选取 正则 化 参数 序列 ， 那 么 ， 通 过 构 


车， 这 样 得 到 的 RBF 网 络 结果 序列 一 定 具有 ( 渐 近 ) 最 小 均 方差 的 RBF 网 络 ， 这 里 最 小 是 相 
对 于 所 有 可 能 的 正则 化 参数 序列 的 选择 ， 其 
NWRE 均 方 误差 相 容 的 条 件 成 立 ， 则 根据 同样 过 程 设 计 的 RBF 网 络 也 是 均 方 盖 相 容 的 。 换 


句 话说， 用 上 述 方 法 得 到 的 RRF 网 络 继承 了 





NWRE 的 相 容 性 结果 应 用 于 诸如 时 间 序 列 
的 情况 经 常 遇见 ， 而 假设 具有 独立 同 分 布 的 训 


题 尾 无 效 的 。 总 而 言 之 ， 通 过 组 合 正则 化 理 





可 上 











包括 与 NWRE 相对 应 的 那个 选择 。 如 果 已 知 


NWRE 的 相 容 性 。 由 这 一 结论 ,我们 可 以 将 
等 的 研究 中 ， 在 这 一 类 研究 中 ， 相 关 和 非 稳 态 
练 数据 和 稳 态 过 程 的 一 般 的 神经 网 络 对 这 类 问 
论 和 核 同 归 估 让 理论 的 基本 原理 ， 这 里 列 出 的 讼 














计 过 程 提供 了 用 于 正则 化 RBF 网 络 设计 和 应 用 的 实际 规定 的 理论 支持 。 
5.14 计算 机 实验 : 模式 分 类 

在 这 一 节 中 ， 我 们 将 通过 计算 机 实验 炒 阐 明基 于 使 用 严 恪 插 值 法 的 正则 化 RBF 网 络 的 
设计 。 这 个 计算 机 实验 是 一 个 二 值 分 类 问题 ， 其 中 的 数据 是 从 与 类 和 类 4, 相对 应 的 两 个 


等 概率 的 交叉 二 维 Gauss 分 布 中 抽取 的 。 有 关 Gauss 分 布 的 详细 内 容 与 4.8 节 中 所 述 的 一 样 。 
公共 方差 为 1; 类 4 的 均值 向 基 为 [0,2]”， 公 共 方 差 为 4- 这 





类 %, 的 均值 向 量 为 [0,0] ” ， 
一 节 描 述 的 计算 机 实验 可 以 看 作 正 则 化 RBF 


分 。 


因为 有 两 个 类 6， 和 4: ， 构 造 正 则 化 RBF 



































络 和 第 4.8 节 的 反问 传 摄 学 习 实验 的 对 应 部 








二 值 类 指示 器 输出 用 作 期 望 答 出 值 ， 表 示 为 


其 中 心 =1，2。 


1 
ad 人 = 相 


络 具 有 两 个 输出 单元 ， 每 个 对 应 一 类 。 同样 ， 


如 果 P 属于 类 4 








其 


他 情况 


在 进行 实验 之 前 ， 我 们 必须 解决 确定 实现 模式 分 类 的 输出 规则 。 在 Yee(1998) 中 证 明正 
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虽 化 RBF 网 络 分 类 器 的 输出 提供 一 个 后 监 类 概率 估计 、 这 个 结论 只 有 在 利用 期 望 输出 的 
二 和 值 类 指 人 下 器 向 量 类 型 训练 网 络 时 才 成 立 。 我 们 现在 将 式 (4.55) 作 为 这 类 网 络 的 次 策 规 
则 ， 

选择 对 应 于 最 大 输出 函数 的 类 - 

中 心 选 择 的 严格 插 倘 法 用 不 同 正 则 化 参数 X 的 值 进行 测试 。 对 一 个 指定 的 入， 由 式 
(5.54) 我 们 就 可 以 算出 RBF 网 络 输出 层 的 权 值 ， 表 冰 为 

mw=(G+XD-'d 

其 中 台 是 一 个 wxN 阶 的 Green 矩阵， 它 的 第 亡 个 元 素 是 径 向 对 称 的 Green 函数 CKx ,ai )， 
帮 是 样本 的 大 小 ，d 是 期 望 响 应 向 量 - 

对 每 一 个 正则 化 参数 X， 总 体 由 50 个 独立 的 网 络 构成 ， 每 一 个 网 络 都 用 只 有 1000 个 模 
式 的 相 问 的 参考 集 进行 测试 。 

表 5-5 给 出 当 有 mi = 20 个 中 心 时 目 确 分 类 摄 率 的 总 体 统 计 (ensemble statistic)。 总 体 
统计 根据 不 同 的 X 值 进行 计算 。 表 5-6 给 出 的 是 具有 mi = 100 个 中 心 的 RBF 网 络 的 相应 结 
果 。 





惠 55 隐藏 层 中 心 大 小 mm =20， 备 种 正则 化 参数 详细 的 正确 分 类 概率 











正则 化 参数 ，4 
总 体 统计 0 0.1 1 10 100 1000 
均值 5. 和 72.4 .4 国有 72.46 72.14 
标准 信奉 37.47 4.11 3.51 4.17 4.98 5.09 
最 小 和 .20 5.60 65.80 的 .J0 6.5 50.50 
最 大 72.70 78.30 .9 79.20 79.40 鸭 .和 





表 56 隐 层 中 心 大 小 m = 100， 各 种 正则 化 参数 详细 的 正确 分 类 概率 
正 出 化 参数 ，4 











总 体 统计 0 0.1 1 10 100 1000 
均值 50.58 万 0 也 克 - 77.87 760 13 
标准 篇 郑 4.70 1.45 0.94 0.91 1.62 2.25 
最 小 41.00 30. 妈 5.10 了 5.10 32.10 70.00 
最 大 人 .30 79.2 39. 扣 79.4 如.10 78.20 








图 5-7 显示 的 是 当 正 则 化 参数 X= 10 时 由 网 络 输出 所 形成 的 决策 边界 ， 此 时 有 最 优 的 统 
计 结 果 。 图 5-7 的 两 部 分 分 别 对 应 于 总 体 中 测试 表现 最 好 的 和 最 益 的 网 络 ; 图 的 两 部 分 对 应 
的 都 是 100 个 中 心 的 情况 。 
上 较 表 5-5 和 5-6 我 们 可 以 发 现 ， 

上 对 mm =20 个 和 mi:=100 个 中 心 ， 当 和 =0 时 ， 网 络 的 分 类 能 力 都 较 差 。 

2. 正则 化 方法 的 使 用 对 RBF 网 络 的 分 类 能 力 有 着 明 吕 的 影响 。 

3. 当 X>0.1 时 ， 网 络 的 分 类 性 能 随 着 》 的 增加 变化 不 大 。 在 中 心 为 20 个 的 情况 下 ， 当 
和 = 工时 分 类 性 能 最 佳 ; 在 中 心 为 100 个 的 情况 下 ， 当 和 = 10 时 分 类 性 能 最 佳 。 

4. 当中 心 数 由 20 增加 至 100 时 ， 网 络 的 分 类 性 能 增加 了 约 4.5 狗 。 
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图 5-3 基于 产 格 插值 尖 的 正则 化 RBF 网 络 借 式 分 类 的 试验 结果 
由 最 优 解 “站 最 状 角 
亡 线 (实心 ) 贺 表 不 最 优 Baye 解 
5.15 小 结 和 讨论 


RBF 网 络 的 结构 旦 不 常 见 的 ， 央 为 隐藏 单元 的 结构 与 输出 单元 的 结构 是 完全 不 同 的 ， 由 
于 径 向 基 函 数 是 隐藏 单元 设计 的 基础 ， 所 以 RBF 网 络 的 理论 与 径 向 基 交 数理 论 有 着 密切 的 
联系 ， 径 向 基 函 数理 论 是 数值 分 析 中 的 一 个 主要 研究 领域 (Singh,1992)。 另 外 值得 注意 的 中 
由 于 输出 层 的 线性 权 值 芷 可 调 参数 ， 通 过 对 线性 白 适 应 让 波 器 的 有 关 文 献 的 研究 ， 我 们 可 以 
得 到 更 多 结果 . 

与 采用 反 向 传播 算法 的 多 层 感 知 器 不 同 ，RBF 网 络 设计 采用 闷 理 化 的 方法 特别 是 5.5 
节 介绍 的 Tikhonoy 正则 化 理论 为 RBF 网 络 的 形成 提供 坚实 的 数学 基础 - 在 这 个 理论 中 Green 
函数 C(x,8) 起 着 关键 作用 。 作 为 网 络 基因 数 的 Creen 尊 数 形式 是 由 正则 化 理论 应 用 中 的 光 
清 度 约束 所 决定 的 。 由 式 (5.63) 所 示 的 微分 算 子 卫 指 定 的 光滑 度 约束 将 导出 多 元 Causs 丽 数 
作为 Green 函数 。 微 分 算 革 了 不 同 ， 自 然 Creen 丽 数 的 形式 也 不 同 。 记 住 ， 当 放宽 要 求 基 函 
数 比 数据 点 少时 ， 减 少 计算 复杂 性 就 成 为 确定 光滑 正则 化 网 络 的 一 个 重要 因素 。 这 可 能 是 在 
正则 化 RBF 网 络 设计 中 使 用 其 他 函数 (如 习题 5.1 所 描述 的 薄板 样 条 函数 ) 作 为 基 画 数 的 “个 
原因 。 无 论 选 择 什么 样 的 函数 作为 基 大 数 ， 为 了 将 正则 化 理论 的 优点 完全 应 用 于 RBF 网 络 
的 设计 中 ， 我 们 都 需要 一 个 原理 化 的 方法 来 估计 正则 化 参数 X。 5.9 节 所 介绍 的 广义 交叉 确 
认 满 足 了 这 个 需要 。 使 用 广义 交叉 确认 的 理论 基础 是 渐 近 的 ， 这 就 要 求 有 一 个 足够 大 的 训练 
集合 .才能 得 到 理想 的 和 的 估计 值 。 

另 一 个 设计 RBF 网 络 的 原理 化 方法 旦 通过 核 回归 来 实现 的 。 该 方法 使 用 密度 估计 ， 对 
于 密度 估计 ， 径 向 基 函 数 之 和 等 于 1。 多 元 Gauss 分 布 提供 满足 这 一 要 求 的 便利 方法 。 

总 之 ，Gauss 型 RBF 网 络 所 实现 的 输入 - 输出 映射 与 混合 专家 系统 所 实现 的 输入 - 输出 
映射 很 相似 。 后 一 模型 将 在 第 7 章 中 介绍 。 
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注释 和 参考 文献 


[] 


[3] 


[4] 


[5] 


[6] 


1 


径 向 基 哎 数 首先 是 在 解决 实 多 变量 播 值 问题 时 提出 的 。 这 方面 的 早期 工作 在 Powell 
(3985) 中 有 所 论述。 现在 径 向 基 函 数 是 数值 分 析 研 究 中 的 一 个 主要 方向 。 
Broomhead and Lowe(1988) 首 先 将 径 向 基 郴 数 应 用 于 神经 网 络 设计 。Poggio and Girosi 
《1990a) 在 径 向 基 画 数 网 络 的 理论 与 设计 中 也 作出 了 重大 贡献 。 后 一 条 论文 强调 将 正则 
化 理论 应 用 于 这 类 神经 网 络 ， 以 提 贞 对 新 数据 的 泛 化 能 力 。 
Cover 定理 的 证 明 遵 循 如 下 考虑 (Cover,1965) : 
*。 Schlafli 定理 或 函数 计数 定理 ; 对 冲 | 维 欧 几 里 德 空间 上 的 m 个 处 于 一 般 位 置 的 向 量 
进行 二 分 ， 可 得 到 的 齐 次 线性 可 分 的 二 分 方式 的 数目 等 于 

CON,mli) = > 袜 人”- )) 
如 果 每 一 个 含有 mi 个 战 小 于 mi 个 的 向 量子 集 都 昆 线性 独立 的 ， 就 说 m: 维 Euclid 空 
间 上 的 集合 %% = jxi|, 处 于 一 般 位 置 。 
* 时 的 联合 概率 分 布 的 反射 不 变性 : 一 个 随机 二 分 是 可 分 的 概率 (在 & 的 条 件 下 ) 等 于 

儿 的 一 个 特定 二 分 (所 有 的 六 个 向 量 都 属于 一 类 ) 的 非 条 件 概率 。 

函数 计数 定理 由 Camer om (1960) 、Joseph(1960) 和 Winder(1961) 以 不 同 的 形式 独立 证 明 ， 
并 应 用 于 特定 的 感知 器 配置 ( 邹 线 人 性 疯 值 单元 )。 在 Cover(1968) 中 这 个 定理 还 被 用 于 根 
据 所 有 可 调 参 数 的 总 数 估计 感知 器 网 络 的 能 力 ， 它 的 下 界 是 W/(1+ lm& 六 )， 其 中 六 是 
输入 模式 的 数量 。 
先 验 知识 共 人 输入 - 输出 映射 的 另 一 种 正则 化 方法 是 通过 使 用 Bayes 插值 理论 ;详细 
了 解 这 方面 的 资料 请 参看 文献 MacKay(1992a,b) 和 Neal(1995)。 
正则 化 理论 的 创立 主要 归功 于 Tikhonov(1963)。Phillips(1962) 也 曾经 前 述 过 相似 的 理 
论 。 因 此 有 时 我 们 也 称 这 一 理论 为 Tikhonov-Phillips 正则 化 。 
在 保险 统计 文献 中 一 种 止 则 化 形式 曾经 在 Whittaker(1923) 讨 论 过 ,在 那里 考虑 的 光 光 
过 程 被 称 为 校准 (graduation ) 或 者 调整 (adjustment)。 
以 书 的 形式 讨论 正则 化 理论 ， 可 以 参考 Tikhonov and Arsenin《1977)、Mozorov(1993) 及 
Kirch(1996)。 
函数 空间 的 概念 是 再 lher 在 对 一 类 积分 方程 所 做 的 基本 研究 的 结果 中 提出 的 。 当 
Fredholm 积分 的 创始 人 fredholm 用 本 质 为 代数 的 语言 提出 问题 时 ，Hilbert 意识 到 这 个 问 
题 与 多 维 欧 几 里 德 空间 上 的 二 阶 明 面 的 解析 几何 理论 有 着 紧密 的 联系 (Lanczos，1964) 。 
正 范 空间 是 一 个 定义 了 实 值 函 数 | x | 的 线性 向 量 空间 ， 该 实 值 函数 称 为 x 的 范 数 。 范 
数 |x| 具有 如 下 性 质 ; 













































































xl >oxr0,|0l =0 
和 ozl =1el xl(e = 常数 ),xt+ry 人 大 1xl+ ly 
范 数 外 x|| 的 意义 是 向 量 x 的 长 度 。 
严格 说 来 ,我们 要 求 负责 产生 数据 的 画 数 ,A(x) 属 于 具有 Dirac delta 广义 函数 8 再 生 核 
形式 的 再 生 核 Hilber 空间 (reproducing kemel Hilhert space, RKHS) (Tapia and Thompson， 
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1978)， 这 样 做 是 央 为 我 们 要 求 Dirac delta 广义 函数 8 为 递减 的 、 无 限 连 续 可 微 的 函数 ， 
即 广义 两 数 Schwarz 理论 的 经 典 测试 函数 空间 ?其 有 有 限 的 了 -诱导 范 数 ， 表 示 为 

吾 =rEy:lDBAl < mt 
一 般 说 来 ， 当 所 到 Hilbert 空间 时 ， 工 程 师 们 总 必 员 想到 声 空间 ， 可 能 因为 声 空间 与 
任何 Hilhert 空间 同 构 。 但 是 范 数 才 是 Hilbert 空间 最 重要 的 特性 ， 且 等 蝶 同 构 ( 保 范 意 
义 下 的 同 构 ) 要 比 简 单 的 加 性 同 构 重要 得 多 (Kailath,1974)。RKHS 理论 说 明 除了 产 空 
间 外 ,还 有 许多 其 他 不 同仁 是 很 有 用 的 Hilben 空间 。 关 于 RKHS 的 指导 性 综述 ， 参 看 







































































Kailath(1971) 。 
[8] 内 积 空间 是 一 个 线性 向 量 空间 ， 空 间 中 的 向 量 忆 和 的 内 积 用 (u,Y) 表 示 ， 满 足 如 下 性 
质 : 


(uv) = (vol,(au'v) = oluv) ,Ca = 常数 )， 
人 +Yy,w) = (uw)+(vwl(uu >0ouzr0) 
如 果 一 个 内 积 空间 咒 中 的 每 一 个 Cauehy 序列 都 按 范 数 收 剑 于 中 中 的 一 个 点 。 就 说 该 内 
积 空 间 是 完备 的 ， 并 且 称 其 为 下 her 空间 。 向 量 序列 |x, ;为 Cauehy 序列 是 指 如 果 对 于 
每 一 个 e>0， 都 存在 一 个 数 好 ， 使 得 对 所 有 ( 严 ,a) > 蜡 有 xu - 关 | <eo 
[9] 在 Gimosi et al.(1995) 中 ， 给 出 得 到 了 式 (5.55) 的 不 同方 法 ; 该 方法 直接 将 正则 化 项 多。 
(五 ) 与 逼 近 函 数 F(x) 的 光滑 性 联系 起 米 - 
光滑 性 可 看 作 函 数 振 划 性 的 度量 。 特 别 地 ， 如 果 某 一 函数 与 另 一 函数 相 比 具 有 较 小 的 
振 划 性 ， 我 们 就 说 这 一 函数 比 另 一 函数 光滑 。 换 句 话 说， 一 个 函数 越 光滑 ， 它 所 含 的 
高 频 分 量 就 越 小 。 考 虑 光滑 人 性 的 这 个 度量 ， 令 P(s) 为 (x) 的 多 维 Fourier 变换 ，s 表 
示 多 维 变换 变量 。 令 吾 (9) 表 示 一 个 正 函 数 ， 当 || s | 趋向 于 无 穷 时 这 个 函数 趋向 于 零 ， 
即 1/ 吾 (s) 表 示 一 个 “高 通 滤波 器 "的 作用 。 那 么 .根据 Cimsi et al. (1995)， 我 们 可 以 用 
一 个 光滑 性 泛 函 来 表示 正则 化 项 : 
se(P = 村人 
其 中 mo 是 x 的 维 数 。 根 据 Fourier 理论 中 的 Pamseval 定理 ， 这 个 泛 两 是 高 通 滤 波 器 1/ 末 
《s) 的 输出 功率 的 一 种 度量 。 这 样 ， 将 正则 化 问题 映射 到 Fourier 领域 并 且 利 用 Fourier 
变换 的 性 质 ， 我 们 就 可 以 得 到 式 (5.55) 所 示 的 解 。 
线性 微分 算 子 的 最 一 般 的 形式 为 


D -= p(xi oa 









































[10 


Dr 
5 十 上 十 二 
其 中 xl 和 2 向 是 向 量 x 的 分 量 ，p(xi, zz，…，xm ) 是 某 个 关于 这 些 分 其 的 函数 。 
算 子 了 的 伴随 算 子 为 (Morse and Feshback ,1953 ) 


王 方 = (- 1)” 人 


和 


[11] 为 了 从 通常 的 交叉 确认 得 到 广义 交叉 确认 ， 我 们 先 考虑 在 Wahba(1990) 中 的 一 个 岭 回 
归 问 题 (ridge regression problem) ; 


) 


eg 


0 再 + 二 





了 = Xur+s (4D) 
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82] 


[13] 


[4] 





其 中 和 是 一 个 wxAw 阶 的 输入 矩阵 ， 咯 声 向 量 s 具有 零 均 值 ， 且 其 协 方差 窍 阵 等 于 
CI。 对 和 进行 奇异 值 分 解 有 

和 = UDVY 

式 中 局 和 YY 是 正 交 征 了 ，D 是 对 角 陈 。 令 

yY=Uy， 8-Yveo， 83-=-Ure 

我 们 可 以 用 如 和 立 将 式 (1) 转 变 为 








了 -4 (2) 
选择 对 角 矩 阵 D( 注 意 不 要 与 微分 算 子 混淆 ) 使 其 奇异 值 成 对 出 现 。 这 样 就 有 一 个 正 交 
托 阵 W， 使 WDW-” 是 轮换 短 阵 ; 妇 





Go 2 9- 
全 w-1 20 8-2 
了 
和 =WDW =|an al … av3 
1 Ga 0 


它 的 对 角 线 元 素 为 常数 。 令 
zZ=Wy， 7 了 Y= WP， 5=- WE 

则 式 (2) 变 黎 为 

z= AY+ 世 《3) 
对 角 和 矩阵 D 具有 和 撼 阵 “最 大 解 稍 ”(maximally uneoupled) 行 ， 而 轮换 矩阵 A 具有 "最 大 耦 
合 ”(maximally coupled) 行 。 
按照 上 述 变换 。 我 们 可 以 陈述 广义 交叉 确认 等 价 于 将 式 (1) 所 示 的 岭 回归 问题 变换 为 
式 (3) 所 示 的 最 大 确 合 形式 ， 然 后 对 z 进 行 一 般 的 交叉 确认 ， 最 后 将 其 变换 为 原 坐 标 
系统 (Wahba,1990 )- 
基于 1990 年 提出 的 报告 ， 存 Powell( 1992) 贡 献 部 分 的 附录 中 ， 对 A.C.Brown 得 到 的 结 
果 给 邓 了 高 度 评价 。 很 明显 在 1981 年 得 出 的 这 个 结果 说 明 一 个 RBF 网 络 可 以 实现 任 
意 一 个 果 数 从 氏 " 的 闭 域 上 到 名 的 映射 。 
Hartman et al,(1990) 讨 论 Gauss 函数 以 及 在 钮 的 员 " 紧 子 集 上 的 通 近 ， 在 那里 证 明 具 有 
单 隐藏 层 且 激 活 固 数 为 Gauss 明 数 的 RBF 网 络 是 一 个 通用 逼近 器 。 然 而 ， 对 RRF 网 络 
的 通用 逼近 性 质 的 最 严格 的 证 明 存 Pak and Sandberg(1991) 中 ; 这 后 一 个 工作 在 
Harman et al. 的 论文 发 表 前 就 已 经 完成 了 。 
证 9 为 民 " 上 的 一 个 有 界 区 域 ， 其 边界 为 T。 考虑 9 表示 在 DR=Q+T 上 具有 连续 梯度 
的 连续 实 值 函数 的 集合 。 双 线性 形式 


| edu:emds 国 


一 定 是 ?上 的 一 个 内 积 。 由 这 个 内 积 产 生 的 范 数 完备 的 空间 y 称 为 Sobolev 空间 
CDebnath and Mikusiftski,1990) 。Sobolev 空间 在 偏 微分 方程 理论 上 有 者 重要 的 作用 ， 因 
此 是 Hilber 空间 的 “个 重要 的 例子 。 

关于 Parzen-Rosenblatt 的 密度 估计 器 的 渐 近 无 例 性 的 证 明 ， 参 看 Parmen(1962) 和 
Cacoulos (1966) 。 
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[15] Nadaraya-Watson 回归 估计 器 在 统计 学 文献 中 已 是 一 个 广泛 研究 的 主题 。 从 更 广 的 意义 
上 说 ， 非 参数 省 函 估计 在 统计 学 中 占有 中 心地 位 ; 参看 Hirdle( 1990) 及 Reoussas(1991) 
的 论文 集 。 


习题 


径 向 基 函 数 

5.1 一 个 薄板 样 条 盖 数 可 以 写成 

fr) = (三 ) us 二) 对 于 某 个 > 0 及 rE 民 

证 明 可 以 用 此 函数 作为 具有 平移 及 旋转 不 变性 的 Green 函数 。 

5.2 在 5.8 节 中 给 出 的 对 图 5-6 所 示 的 RBF 阅 络 的 权 值 向 量 w 的 值 集合 ， 对 XOR 问题 
提出 一 组 可 能 的 解 。 试 求 另 一 组 能 解决 该 问题 的 权 值 向 量 w 的 值 。 

5.3 在 5.8 节 中 我 们 给 出 了 用 具有 两 个 隐藏 单元 的 RBF 网 络 解决 XOR 问题 的 解 。 在 这 
个 习题 中 ， 我 们 考虑 用 四 个 隐藏 单元 精确 求解 该 问题 ， 每 个 径 向 基 函 数 的 中 心 由 每 一 个 输入 
数据 点 决定 。 四 个 可 能 的 输入 模式 为 (0,0)、(0,D)、(1,1) 和 (1,0)， 它 们 表示 一 个 正方 形 环 
形 排序 的 四 个 角 。 

(a) 求 上 述 RBF 网 络 的 插值 矩阵 四 及 其 首 下。 

(b) 计 算 该 网 络 的 输出 层 的 线性 权 值 。 

5.4 ”Gauss 函数 是 仅 有 的 可 因 式 分 解 的 径 向 基 函 数 。 利 用 Gauss 函数 的 这 个 人 性 质证 明定 
义 为 多 元 Gauss 分 布 的 Green 函数 可 分 解 成 


ceb -= 下 co) 
其 中 内 和 是 mx1 各 量 x 和 t 的 第 守 个 分 量 。 
























































正则 化 网 络 
5.5 考虑 代价 泛 蚌 
8 [4-ocls -eeDPvaAlpe 
它 用 到 逼近 函数 








Pa = wcClx-alD 
利用 Fechet 微分 ， 证 明 当 
(GIG + XMGoJw = G7d 
时 ， 代 价 泛 函 色 ( 5 ) 最 小 ， 其 中 w x mi 维和 矩阵 G，ms x mi 维 矩 阵 Go ，ml x 工 向 量 w 以 及 
六 x 工 向 量 dd， 分别 由 式 (5.72)、(5.75) 、(5.73) 及 (5.46) 定 义 。 
5.6 假设 我 们 定义 


罗 亚 人 有 社 
(DD)u = 又 (- 1 有 有 





2 mm 六 
其 中 Vi -=- > > 到 
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mo x ma 阶 和 矩阵 吕 是 一 个 对 称 正定 矩阵 ， 第 郑 个 元 素 用 忆 表 示 。 因 此 存在 道 和 矩阵 0 ， 从 而 
可 以 通过 相似 变 氛 将 其 分 解 成 如 下 形式 
U =- VrEYV - VIEP2DP2VY = CTC 
式 中 Y 是 一 个 正 交 上 矩阵。 也 是 对 角 和 矩阵 ，22 是 五 的 平方 很 ， 矩 降 C 定义 
C = 2V 
问题 相当 于 求 Green 函数 GCx,t 满 足下 列 条 件 (在 广义 嚼 数 的 意义 下 ): 
(Dp)uctx,b = 8x- 昌 
用 多 维 Fourier 变换 解 基于 G(x, 日 的 方程 证明 其 解 为 
ctxb = emp( -去 |x-tl 旨 
其 中 1xls=xrCrCx 
5.7 考虑 一 个 定义 如 下 的 正则 化 项 : 


| 1pFeo lax = o 1Dperoo lex 


0 




















靖 1 
线性 微分 算 子 六 由 梯度 算 子 Y 和 拉 普 拉 斯 算 子 Y? 定 义 如 下 ! 
po (9V3 
且 Does YY 
证 明 PP(x) = 和 2P(x) 


5.8 在 第 5.5 节 中 ,我 们 由 式 (5.65) 的 关系 导出 了 关于 情 (3) 的 式 (5.66)。 在 这 个 问题 
中 我 们 希望 从 由 式 (5.65) 开 始 利 用 多 维 Fourier 变换 导出 式 (5.66)。 利 用 Green 衣 数 C(x) 的 多 
维 Fourier 变换 的 定义 


























G(s) = 儿 G(x)exp( - is7x)dx 


完成 推导 ， 其 中 ;= v -= 1，s 是 mo 维 的 变换 变量 。 
5.9 考虑 式 (3.95) 所 描述 的 非 线性 回归 问题 。 令 aa 表示 矩阵 (G+ MD 的 第 基 个 元 素 。 
那么 ， 由 式 (3.58) 出 发 ， 证 明 回 归 函 孝 天 妇 的 估计 可 以 表示 为 
让 zx) = 六 wxx) 和 
其 中 六 是 对 应 于 模型 输入 xx 的 输出 ， 且 














惠 xsx) = ecClx aa， 天 12 


上 式 中 6( | 上) 是 Green 函数 - 

5.10 样 条 画 数 是 分 段 多 项 式 逼 挝 器 的 例子 (Schumaker, 1981 )。 样 条 方法 的 基本 思想 如 
下 : 将 一 个 被 逼近 区 域 用 节点 分 为 有 限 个 子 区 域 ; 节点 可 以 是 固定 的 ， 这 样 逼近 器 就 是 线性 
参数 化 的 ; 节点 也 可 以 是 可 变 的 ， 这 样 逼近 器 就 是 非 线 件 参数 化 的 。 在 这 两 种 情况 下 ， 在 每 
一 个 腹 近 区 域 中 使 用 一 个 阶 数 最 高 为 n” 的 多 项 式 ， 且 要 求 整个 函数 必须 是 =- 工 次 可 微 的 。 
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更 了 并 





多 项 式样 条 函数 是 相对 光滑 函数 ， 容 易 在 计算 机 上 存储 、 操 作 及 计算 。 
在 实际 使 用 的 样 条 画 数 中 ， 三 次 样 条 虽 数 可 能 是 应 用 最 广泛 的 。 一 个 一 维 输入 的 二 次 样 
条 天 数 的 代价 儿 函 定义 如 下 ， 

















80D -= 邯 立 D -ap) 了 + 语 六 [2 


其 中 入 在 样 条 函数 中 表示 光滑 性 参数 。 
(a) 验 证 这 个 问题 解 太 (x) 的 如 下 性 质 : 
(1) 两 个 相 续 的 * 节点 值 之 间 丸 (*) 是 一 个 三 次 多 项 式 。 


(2)A 











x) 及 前 两 阶 导数 都 是 连续 的 ， 除 其 二 阶 导 数值 在 边界 点 为 零 外 。 





〈 上 因 为 凶 (六 有 惟一 最 小 值 ， 所 以 我 们 必须 有 


日 ( 彤 +ag) 演 昌 ( 捕 ) 


其 中 g 是 与 乒 一 类 的 二 次 可 微 函 数 ，c 为 任意 实 值 常数 。 这 意味 着 外 (A + ag) 作 为 的 
函数 在 "= 0 局 部 最 小 。 因 此 ， 证 明 

















上 式 是 关于 三 次 样 条 问题 的 EulerLagrange 方 醒 。 


逼近 速度 
5.11 


核 估 计 





设计 Guass 型 RBF 网 络 逼 近 属 于 某 一 Soboiev 空间 的 一 个 回归 函数 时 ， 式 (5.124) 
定义 泛 化 误差 的 上 界 。 利 用 这 个 上 界 推 导 式 (5.125) 的 公式 ， 该 式 表 示 这 个 网 络 对 应 于 某 一 
特定 大 小 的 训练 样本 的 最 佳 网 络 大 小 。 








5.12 ”假设 给 你 一 个 “无 噪声 "训练 集合 /Kx )|,， 要 求 设 计 一 个 神经 网 络 ， 能 推广 到 





由 于 受 加 噪声 的 干扰 而 不 属于 训练 集合 的 那些 样本 点 上 。 令 RS 表示 该 网 络 所 实现 的 通 近 
函数 ， 它 使 期 望 平 方 误差 





成 为 最 小 ， 


共 





71CD = 到 阅 | Us) - Fe 了)4S 





天 (8 是 输入 空间 氏 " 上 的 一 个 噪声 分 布 的 概率 密度 函数 。 证 明 这 个 最 小 平 


方 问题 的 解 为 (Webb,1994) 


Zn)AGs- xD) 
2nc 一 )》 


下 (X) = 














比较 这 个 估计 器 和 Nadaraya-Watson 回 归 估计 中 。 
中 心 的 监督 选择 
5.13 考虑 代价 泛 函 


其 中 


中 


e = 出 -F(5)= 机 =- 志 wcEC5 -61e) 
1 





秦 向 天 声 玫 网 络 
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式 中 的 自由 参数 为 线 


0 轨 过 
(了 = 己 * 


也 包 


(b) 可 = 2 刀 忆 eG 人 az -tl 


性 权 值 w ，Greeen 函数 的 中 心 上 以 及 协 方差 窍 阵 的 道 焉 .= CC ， 其 中 
C, 是 范 数 加 权 年 赃 。 要 求 找到 使 代价 证 函 最 小 的 自由 和 参数。 推导 下 列 偏 导数 





GE -二 le) 


下 
< (5 -bb) 


拉 


日 轩 
(9 5 一- 了 


DecGC1a -lc)Q， 
所 


其 中 C() 是 6(') 对 其 自 变 量 的 导数 ， 且 





Qi = -6 一) 


关于 一 个 标量 对 一 个 向 量 的 求 导 数 规则 ， 参 看 第 3 章 的 注释 ;2]。 


计算 机 实验 


5.14 在 本 题 中 ， 我 们 将 继续 5.13 节 中 的 计算 机 实验 ,在 设计 作为 二 值 模式 分 类 器 的 
RBF 网 络 时 讨论 随机 选取 中 心 的 情况 。 实 验 的 目的 是 为 了 证 明 以 这 种 方式 训练 的 网 络 的 活化 


能 力 相当 好 。 


设计 的 网 络 是 为 了 解决 .13 节 中 的 二 值 模式 分 类 问题 ， 要 求 分 类 的 数据 是 从 一 个 具有 


两 个 等 概率 的 部 分 重 亚 二 维 Gauss 分 布 的 混合 模型 中 抽 
重 为 [0,0]”， 公 共 方 差 为 1; 另 一 个 Gauss 分 布 的 均值 





类 的 决策 规则 为 “选择 具有 最 大 函数 输出 的 类 ”。 


(a) 随 机 选取 mi 


襄 下 计算 均值 、 标 准 偏 益 以 及 正确 分 类 概率 已 的 最 小 值 和 最 大 


= 如 0 个 中 心 ,在 正则 化 参数 》 分 别 为 











对 每 一 个 总 体 利 

考 集合 进行 测试 。 
(b) 构 造 按 (a) 所 
(ce) 当 中 心 数 mi 














50 个 独立 的 





络 分 别 测试 ， 每 次 都 是 对 


述 配置 计算 的 当 正则 
= 1 时 (随机 选择 中 心 )， 











取 的 。 其 中 一 个 Gauss 分 布 的 均值 向 
向 量 为 [0,2]”， 公 共 方 差 为 4。 该 分 





0,， 0.1，1，10，100 和 1000 的 情 
值 。 为 了 计算 总 体 统计 量 ， 
一 个 固定 的 具有 1000 个 模式 的 参 





化 参数 X= 1 时 的 决策 边界 。 
重复 (a) 的 计算 。 





( 昌 根 所 结果， 讨论 将 随机 选择 中 心 作 为 RBF 网 络 设计 方法 的 优点 ， 以 及 当 网 络 作为 模 


式 分 类 器 时 正则 化 在 性 能 方面 所 起 的 作用 
(e) 将 所 得 结果 与 5.13 节 中 用 
中 心 的 方法 对 正则 化 参数 更 不 敏感 。 











5.15 也 许可 以 


Gauss 径 向 基 函 数 逛 近 固 有 的 Gauss 类 条 件 





说 ,在 5.13 节 允 


时 Gauss 分 布 类 进 





分 布 ， 所 以 RBF 网 络 有 较 好 的 性 能 。 在 本 题 中 我 


严格 辆 值 法 所 得 的 结果 进行 比较 。 特 划 地 ， 确 定 随机 选择 














行 分 类 的 计算 机 实验 中 ， 由 于 











们 将 用 计算 机 试验 研究 设计 一 个 严格 插值 的 Causs 型 RBF 周 络 ，Gauss 分 布 为 明显 不 连续 的 
类 条 件 分 布 。 特 别 地 ， 考 虑 两 个 等 可 能 的 类 &， 和 类 吧 , 的 分 布 ; 


。 106 )， 其 ] 


在 
Pqg, = D; 是 一 个 半径 为 = 2.34、 中 心 








” DC)， 其 4 


PC 异 : 屁 一 个 中 心 在 x、 边 长 为 = 


在 x =[-2,30]7 的 团 
V 阮 的 正方 形 区 域 





这 里 (9) 表 示 一 个 在 QC 呈 上 的 均匀 分 布 。 这 些 参 数 的 选取 使 得 类 6 的 决策 区 域 与 

















5.13 节 中 用 Gauss 分 











布 情况 时 的 决策 区 域 相同 。 研 究 使 用 


E 则 化 作为 一 种 手段 ， 提 高 利用 严 














格 潘 值 的 Gauss 型 RBF 网 络 的 分 类 性 能 。 
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第 6 章 支持 向 量 机 


6.1 简介 


在 第 4 章 ， 我 们 研究 了 由 反 向 传播 算法 训练 的 多 尺 感知 器 。 在 第 5 音 ， 我 们 研究 了 另 一 
类 分 层 前 馈 网 络 ， 芭 径 向 基 郴 数 网 络 。 这 两 种 神经 网 络 按 它们 自己 的 方式 都 是 通用 通 近 器 。 
在 这 一 章 ， 我 们 将 讨论 另 一 种 通用 的 前 馈 网 络 的 类 型 ， 称 为 支持 向 量 机 (support vector 
machine,SVM) ， 由 Vapnik 首先 提出 (Boser, Guyon, ang Vapnik, 1992; Cortes and Vapnik, 1995; 
Vapnik, 1995,1998)。 像 多 层 感知 器 网 络 和 径 向 基 本 数 网 络 ， 支 持 向 量 机 能 用 于 模式 分 类 和 非 
线性 回归 。 

当然 ， 支 持 向 量 机 是 一 种 线性 机 器 ， 有 一 些 很 好 的 特性 。 为 了 解释 它 怎样 工作 ， 从 模式 
分 类 中 出 现 的 可 分 模式 的 情况 开始 可 能 是 最 容易 的 。 在 此 背景 下 ， 支 持 向 量 机 的 主要 思想 是 
建立 一 个 超 平面 作为 决策 曲面 ， 使 得 正 例 和 反例 之 间 的 隔离 边缘 被 最 大 化 。 通 过 使 用 在 第 2 
章 中 讨论 过 的 基于 统计 学 习 理论 的 原理 性 方法 ， 机 器 获得 了 这 个 想 要 的 特性 。 更 精确 地 说 ， 
支持 向 量 机 是 结构 风险 最 小 化 方法 的 近似 实现 。 这 个 归纳 原理 是 基于 这 样 的 事实 ， 学 习 机 器 
在 测试 数据 上 的 误差 雍 ( 即 活化 误差 率 ) 以 训练 误差 率 和 一 个 依赖 于 VC 维 数 ( Vapnik- 
Chervonenkis dimension) 的 项 的 和 为 界 ; 在 可 分 模式 情况 下 ， 支 持 向 量 机 对 于 前 一 项 的 值 为 
零 ， 并 且 使 第 二 项 最 小 化 。 因 此 ， 尽 管 它 不 利用 问题 的 领域 知识 ， 在 模式 分 类 问题 上 支持 向 
基 机 能 提供 好 的 泛 化 性 能 。 这 个 属性 是 支持 向 量 机 特有 的 。 

在 "支持 向 量 "xi 和 输 和 空间 抽取 的 向 量 x 之 间 的 内 积 核 这 一 个 概念 是 构造 支持 向 量 机 
学 习 算 法 的 关键 。 支 持 向 量 是 由 算法 从 训练 数据 中 抽取 的 小 的 子 集 构成 。 依 束 于 这 个 内 积 核 
的 不 同 产生 方式 ， 可 能 建立 不 同 的 学 习 机 器 ， 由 它们 自己 的 非 线性 决策 曲面 所 表征 。 尤 
是 ， 可 以 使 用 支持 向 量 学 习 算 法 来 构建 学 习 机 器 中 的 下 面 二 种 类 型 : 

”。 多 项 式 学 习 机 器 

，。 径 向 基 函 数 网 络 

，。 两 度 感知 器 ( 即 有 单独 隐藏 层 》 
也 就 是 说 ， 对 于 这 些 前 馈 网 络 中 的 每 一 个 ， 利 用 给 定 的 训练 数据 集 我 们 可 以 使 用 支持 向 量 学 
习 算 法 来 实现 学 习 过 程 ， 自 动 决定 克 求 隐藏 单元 的 数目 。 用 另 一 种 方式 陈述 : 由 于 反 向 传播 
算法 专门 为 训练 多 层 感 知 器 设计 ， 所 以 支持 向 量 学 习 算法 是 一 种 更 一 般 化 的 算法 ， 因 为 它 有 
更 广泛 的 应 用 。 


本 章 的 组 织 
本 章 的 主体 组 织 为 三 部 分 。 在 第 一 部 分 中 ,我 们 描述 支持 向 量 机 背后 的 基本 思想 。 特 别 
地 ， 在 6.2 节 讨 论 对 于 简单 的 线性 可 分 模式 情况 下 最 优 超 平面 的 构建 。 接 着 在 6,3 节 考 虑 更 
复杂 的 不 可 分 模式 的 情况 。 
技 照 这 样 做 ， 我 们 为 本 章 的 第 二 部 分 铺 平 道路 ， 这 部 分 给 出 支持 向 量 机 解决 模式 识别 任 
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务 的 详细 讨论 。 这 个 工作 在 6,4 证 完成 。 在 第 6.5 节 再 回 到 XOR 问题 ， 说 明 支 持 向 量 仙 的 构 
造 。 在 第 6.6 节 再 次 谈 及 在 第 4，5 章 中 研究 过 的 模式 分 类 的 计算 机 实验 ， 从 而 提供 支持 向 
量 机 与 由 反 向 传播 算法 训练 的 多 层 感知 器 及 标准 的 径 庙 基 机 数 网 络 之 间 的 一 个 比较 。 

本 章 的 最 后 一 部 分 处 理 非 线 性 回归 问题 。 在 6.7 节 撒 述 一 个 损失 函数 ， 它 非常 通 合 这 个 
问题 : 然后 在 第 6.8 节 讨 论 用 于 非 线性 回归 的 支持 向 量 机 的 构造 。 

在 第 6.9 节 以 一 些 最 终 评述 结束 本 章 . 


6.2 线性 可 分 模式 的 最 优 超 平面 


考虑 训练 祥 本 1(x ,到 )}，， 其 中 是 输入 模式 的 第 ;个 例子 ， 点 是 对 应 的 期 望 响 应 
《目标 输出 ) 。 开 始 我 们 假定 由 子 集 & = + 1 代表 的 模式 (类 ) 和 d = - 工 代表 的 模式 是 "线性 
可 分 的 "。 用 于 分 离 的 超 平面 形式 的 决策 曲面 方程 是 











mx+D=10 (6.1) 
其 中 x 是 输入 向 量 . w 是 可 调 的 权 伪 向量， 是 偏 置 。 这 样 我 们 可 以 写成 
WwWTx +30， 对 于 d =+1 wrap<0 对 于 可 =-1 16.2) 





存 这 里 作 了 模式 线性 可 分 的 假定 ,以 便 在 相当 简单 的 环境 里 解释 支持 向 量 机 表 后 的 基本 思 
想 ; 在 第 6.3 节 将 放宽 这 个 假定 。 

对 于 一 个 给 定 的 权 值 向 量 w 和 偏 置 5， 
由 方程 (6.1) 定 义 的 超 平面 和 最 近 的 数据 点 之 
间 的 阅 陋 被 称 为 分 离 边 缚 ,用 p 表示 。 支 持 。 六 所 出 
向 量 机 的 目标 是 找到 一 个 特殊 的 超 平面 ， 对 
于 这 个 超 平面 分 离 边缘 p 最 大 。 在 这 个 条 件 
下 , 决策 曲面 称 为 最 优 超 平面 (optimal 
hypemplme)。 图 6-1 给 出 的 是 二 维 输入 空间 中 
最 优 超 平面 的 几何 结构 。 

设 w, 和 玉 分 别 表示 权 值 向 量 和 偏 置 的 | 
最 优 值 。 相 应 地 ， 在 输入 空间 里 表示 多 维 线 
性 决策 面 的 最 优 超 平面 由 

x+t=0 《6.3) 图 6-1 线性 可 分 模式 最 优 超 平面 的 思想 示意 轩 
定义 ， 它 是 方程 (6.1) 的 改写 。 判 别 画 数 
&E(x) = mx+Bt 《6.4) 

给 出 从 x 到 最 优 超 平面 的 距离 的 一 种 代数 度量 (Duda and Han,1973)。 看 出 这 一 点 的 最 简单 方 
法 或 许 是 将 x 表达 为 

















忌 二 世 十 了 wwT 
其 中 ，x, 是 x 在 最 优 超 平面 上 的 常规 投影 ，r 是 期 望 的 代数 距离 ， 如 果 x 在 最 优 超 平面 的 正 
面 ，r 是 正 值 ， 相 反 如 果 x 在 最 优 超 平面 的 负 而 ，r 是 负 值 。 因 为 由 定义 知 g&(mz) = 0， 由 此 
推出 
































gz) = w+ = wo 
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&(x) 





或 者 7= (6.5) 
是 mw。 | 


尤其 ， 从 原点 ( 即 x= 0) 到 最 优 超 平面 的 距离 由 呈 / | w, | 给 定 。 如 果 久 >0， 和 原点 在 最 优 超 
平面 的 正面 ;如 果 六 < 0 ,原点 在 负面 ;如 果 吕 = 0, 最 优 超 平面 通过 诛 点 。 这 些 代数 结果 
的 几何 解释 企图 6-2 中 给 出 。 忆 
现在 的 问题 是 对 于 给 定 的 数据 集 g = 1(x.,d)i， 
找到 最 优 超 平面 的 参数 w。 和 六 。 根 据 图 6-2 描绘 
结果 。 可 以 看 出 一 对 (w。 , 久 ) 一 定 满足 条 件 : 
wx + 加 1， 对 于 @ =+1 
WIIX TD 苹 -1， 对 于 不 =-1 
注意 如 果 式 (6.2) 成 立 ， 即 模式 是 线性 可 分 的 ， 总 可 
以 重新 调整 w。 和 4. 的 值 使得 式 (6.6) 成 立 ; 这 种 重 
新 调整 并 不 改变 式 (6.3)。 
满足 式 (6-6) 第 -- 行 或 第 二 行 等 号 情况 的 特殊 数 9 到 
据点 (x, ,不 ) 称 为 支持 向 量 , “支持 向 量 机 "因此 得 名 。 
这 些 向 量 在 这 类 学 习 机 器 的 运行 中 起 着 主导 作用 。 用 
概念 性 的 术语 ， 支 持 向 量 是 那些 最 靠近 决策 面 的 数据 图 6 2 二 维 情况 下 点 到 节 优 超 平西 








(6.6) 
































点 ， 这 样 这 些 数据 点 是 最 难 分 类 的 。 因 此 ， 它 们 和 决 的 代 教 距离 的 几何 解释 
策 面 的 最 优 位 置 直接 相关 。 
考虑 一 个 支持 向 量 st 对 应 于 do = + 1。 然 后 根据 定义 ,我 们 有 
Ex) = WE 直 = 于 1 对 于 di = 于 1 《6.7) 
从 式 (6.5) 知 从 支持 向 量 x9 到 最 优 超 平面 的 代数 距离 是 
1 和 
EC) 了 着 (6.8) 
”1wT = 1 。 - 
研 - 记 若 do =-1 











其 中 加 号 表示 %” 在 最 优 趟 平面 的 正面 ， 而 减 号 表示 x” 在 最 优 超 平 而 的 负面 。 让 p 表示 在 
两 个 类 之 间 的 分 离 这 缘 的 最 优 值 ， 其 中 这 两 个 类 构成 训练 集合 。 因 此 从 式 (6,8) 得 到 


2 
pe=2r= 训 T 《6.9》 


式 (6.9) 说 明 ， 最 大 化 两 个 类 之 间 的 分 离 边缘 等 价 于 最 小 化 权 值 向 量 w 的 欧 几 里 德 范 数 。 
总 之 ， 由 式 (6.3) 定 义 的 最 优 超 平面 是 惟一 的 ， 意 昧 着 最 优 权 值 向 量 w, 提供 正 反例 之 间 
的 最 大 可 能 的 分 离 。 这 个 优化 条 件 是 让 过 最 小 化 权 值 向 量 w 的 欧 儿 里 德 范 数 效 得 的 。 


用 于 寻找 最 优 超 平面 的 二 次 最 优化 


我 们 的 目标 是 发 展 一 个 计算 上 有 效 的 过 程 ， 般 过 使 用 训练 样本 5 = | (zx ; 必 ) 沁 ,找到 最 
优 超 平面 ， 并 且 满 足 约束 条 件 
dwrxi+b) al 对 于 半 = 1,2，……R _ (6.10) 
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这 个 约束 条 件 把 式 (5.6) 两 行 组 台 在 一 起 ， 其 中 mW, 被 w 米 代替 。 
我 们 必须 解决 的 约束 最 优 问 题 现 在 可 陈述 如 下 
给 定 训练 样本 |(x,, 尼 让 六 。 找 到 权 值 向 量 四 和 仿 置 二 的 最 优 值 使 得 它们 满足 下 面 的 约 
束 条 件 
本 (wwrgi + 起 ) 六 1 对 守 = 1 2 
首 且 入 值 向 是 中 最 小 化 代价 邓 数 


惠 (w) = 二 ww 


这 里 包含 比 列 因 子 1/2 是 为 了 表示 方便 。 这 个 约束 优化 问题 称 为 原 问 题 (primal problem)。 它 
的 特点 如 下 : 
。 代价 函数 @( 四 是 站 的 西 画 数 [。 
。 约束 条 件 关 于 w 是 线性 的 。 
因此 ， 我 们 可 以 使 用 Lagrange 来 子 方法 解决 约束 最 优 门 题 ( Bersekas,1995)。 
首先 ， 我 们 建立 Lagrange 函数 
J(Cw,b,a) = ww- 补 setwx +) -1] (6.11) 


其 中 辅助 非 负 变 量 ", 称 作 Lagrmange 来 子 。 约束 最 优 问 题 的 解 由 Lagrange 函数 Fw,5 ,oa) 的 鞍 
点 决定 ， 此 函数 对 w 和 必定 最 小 化 ， 对 “必定 最 大 化 。JKw,5,o) 对 mw 和 石 求 微分 并 置 结 
果 等 于 零 ， 我 们 得 到 下 面 两 个 最 优化 条 件 : 


3JCmw,5a) 
条 件 1; 一 0 




















3J(Cw:6 om) 
条 件 2: 富生 =0 





























应 用 最 优化 条 件 1 到 式 (6.11) 的 Lagaage 丽 数 ， 得 到 (在 重新 安排 项 之 后 ) 
w = 袜 dx (6.12) 
应 用 最 优 条 件 2 到 趟 (6.11) 的 Lagmange 函数 ， 得 到 
症 ad =0 《6.13) 


解 向 量 w 定义 为 亦 个 训练 样本 的 展开 。 伍 是 注意 ， 尽 管 由 于 Lagrange 函数 的 凸 性 这 个 解 是 
惟一 的 . 但 并 不 能 认为 Lagrange 系数 w 亦 是 惟一 的 。 

在 这 里 同样 重要 的 是 注意 ， 在 贡 点 对 每 一 个 Lagrange 乘 子 ; ， 乘 子 与 它 相应 的 约束 的 乘 
积 为 零 ， 表 示 为 











afdagwx +b)-1=0 对 寺 = 12 (6.14) 
些 ， 只 有 这 些 精确 满足 式 (6.14) 的 乘 子 才能 假定 非 霍 值 。 这 个 性 质 是 从 最 优化 理论 的 
Kuhn-Tucker 条件 得 出 的 (Fleteher,1987; Bersekas,1995) 、 
就 像 早 先 提 到 的 ， 原 问题 是 处 理 凸 代价 画 数 和 线性 约束 。 给 定 这 样 一 个 约束 最 优化 问 
题 ， 可 能 构造 另 一 个 问题 ， 称 为 对 但 问 题 (dual problem)。 这 第 二 个 问题 与 原 问题 有 同伴 的 最 
优 值 ， 但 由 Lagrange 乘 子 提供 最 优 解 。 特 别 地 ， 可 以 陈述 对 惕 定理 如 下 (Bertsekas, 1995) 




















4 233 





(a) 如 果 原 问题 有 最 优 解 ， 对 偶 问 题 也 有 最 优 解 ， 并 且 相 应 的 最 优 值 是 相同 的 。 
(b) 为 了 使 得 w. 为 原 问题 的 一 个 最 优 解 和 w。 为 对 偶 问 题 的 -- 个 最 优 解 的 充分 必要 条 件 
是 w, 对 原 问题 是 可 行 的， 并 蛋 
GOw) = Jwbiao) = minJ(w, boo) 





为 了 说 明 对 倘 问 题 是 我 们 点 问题 的 前 提 ， 我 们 首先 途 项 展开 式 (6， 11) 如 卜 : 
JCwboO = 二 mwrw - 机 ax -ad + (6.15) 
按照 式 (6.13) 最 优 条 件 的 人 性质， 式 (6. 15) 右 喘 第 二 :项 为 鹤 。 而 且 从 式 (6. 12) 我 们 有 
Wrw = eawx = = 垃 补 eoadwx 
， 目 标 函 数 设置 为 J(w，4， -0 可 可 生起 (6. 13) 为 
oo -= 2 - 序 六 六 sadaaex (6.16) 


:1 








出 














其 中 必 是 非 负 的 。 
现在 可 以 陈述 对 偶 问 题 ; 
给 定 训 练 笠 本 j] (zx 下 )| 六 ， 下 本 人 和 本 本 
Q@(a) = 2 一 于 六 sadrx 
的 Lagrange 条子 la 已 ，， 满 足 约束 条 件 


(Dud =0 

(2)a 0 对 于 i=12 

注意 ， 对 偶 问 题 完全 是 根据 训练 数据 来 表达 的 。 而 且 ， 函 数 0@(o) 的 最 大 化 仅 依赖 于 输 
人 模式 点 积 的 集合 1 后-ie 

确定 用 ,表示 的 最 优 Lagrange 冬 子 后 ， 可 以 用 式 (6.12) 计 算 最 优 权 值 疝 量 w, ， 并 写 
成 


- 忆 。 , (6.17) 


为 了 计算 最 优 傻 置 5 ， 可 以 使 用 获得 的 w。， 并 对 于 一 个 止 的 支持 向 量 利用 式 (6.7)， 这 样 
有 有 














并 对 于 ad = 1 (6.18) 
最 优 超 平面 的 统计 特性 


从 第 2 章 给 出 的 统计 学 习 理 论 ， 回 忆 学 习 机 器 的 VC 维 决 定 遂 近 函数 的 骨 套 结构 应 该 使 
用 的 方式 。 我 们 也 知道 在 m 维 空间 分 离 超 平面 集 的 VC 维 为 四 + 1。 然 而 ， 为 了 应 用 第 2 章 
描述 的 结构 风险 最 小 化 的 方法 ， 我 们 需要 建立 VC 维 数 变 化 的 分 离 超 平面 集合 ， 使 得 经 验 风 
险 ( 即 训练 分 类 误差 ) 和 VC 维 数 同 时 最 小 化 。 在 支持 向 量 机 里 ， 通 过 约束 权 值 向 量 w 的 
Euclid 范 数 对 分 离 超 平面 集合 施加 一 个 结构 。 特 别 地 ， 我 们 可 以 陈述 如 下 定理 (Vapnik, 1995， 
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1998) : 
令 万 表示 包括 所 有 输入 向 量 四 ,更 ，…，xw 的 最 小 球 的 直径 。 由 方程 
wx+p=0 
描述 的 最 优 超 平面 集合 ， 有 一 个 VC 维 数 瑚 的 上 界 为 


中 运 | | 芭 | 1 (6.19) 


其 中 项 符号 | | 表示 大 于 等 于 所 包含 的 数值 的 最 小 整数 ，p 尾 等 于 21 | w。 || 的 分 离 边 缘 ，mo 
是 输入 空间 的 维 数 。 
这 个 定理 告诉 我 们 ， 可 以 试验 榨 制 最 优越 半 面 的 VC 维 数 ( 即 复杂 人 性)， 通 过 正确 选择 分 离 边 
缘 p， 它 与 输 人 空 镜 的 维 数 mo 无 关 。 
于 是 假定 ， 我 们 有 一 个 通过 分 离 超 平 贞 描 述 的 谋 餐 结构 如 下 ， 

S = twrx+b: mwl sel， 天 = 1,2，… 《6.20) 
由 VC 维 数 二 在 式 (6.19) 定 义 的 上 界 ， 在 式 (6.20) 中 描述 的 谋 套 结构 可 以 通过 分 离 边 缘 改 写 
为 等 价 形式 








-21 
s -|3hue>o]， 下 = 1 2 (6.21) 


其 中 m 和 都 是 常数 。 

从 第 2 章 我 们 也 知道 ， 为 了 得 到 较 好 的 泛 化 能 力 记 该 选择 一 个 特殊 的 结构 ， 根 据 结 构 风 
险 最 小 化 原则 ， 它 应 有 最 小 的 VC 维 数 和 训练 误差 。 从 式 (6,19) 和 (6.21) 中 我 们 发 现 通过 使 
用 最 优 超 平面 ( 即 利 用 具有 最 大 分 离 边 缘 p 的 分 离 超 平面 ) ， 这 个 要 求 可 以 被 满足 。 等 价 地 ， 
根据 式 (6.9) 应 该 使 用 具有 最 小 欧 儿 里 德 范 数 的 最 优 仅 值 向 量 w。 。 因 此 ， 最 优 超 平面 作为 线 
性 可 分 模式 决策 面 的 选择 ， 不 仅 走 观 上 满足 而 且 完 全 符合 支持 向 量 机 的 结构 风险 最 小 化 的 原 
理 。 


6.3 不 可 分 模式 的 最 优 超 平面 


到 目前 为 止 讨论 集中 在 线性 可 分 模式 的 情况 。 在 这 一 节 我 们 考虑 更 难 的 不 可 分 模式 的 情 
况 。 给 定 这 样 一 组 训练 数据 ， 不 可 能 建立 一 个 不 具有 分 类 误 差 的 分 离 超 平面 。 然 而 ， 我 们 希 
让 找到 一 个 最 优 超 平面 ， 它 对 整个 训练 集合 平均 的 分 类 误差 的 概率 达到 最 小 。 

在 类 之 间 的 分 离 边缘 称 为 是 软 的 ， 如 果 数 据点 (xi, 马 ) 不 满足 下 面 的 条 件 ( 见 式 (6,10)); 

GCT TD +1l， i = 12， 
这 种 违反 条 件 以 下 面 两 种 方式 之 一 出 现 ; 

。 数据 点 (xz ,d& ) 落 在 分 元 区 域 之 内 ， 但 在 决策 面 正 确 的 一 侧 ， 如 图 6-3a 所 示 。 

*” 数据 点 (x. ,d ) 落 在 决策 面 错误 的 一 侧 ， 如 图 6-3b 所 示 。 
注意 ,在 情况 1 我 们 有 正确 的 分 类 ， 但 在 情况 2 分 类 是 错误 的 。 

为 了 建立 不 可 分 离 数 据点 正式 处 理 的 阶段 ， 我 们 引入 一 组 新 的 非 负 标量 变量 1.1”, 到 分 
离 超 平面 ( 即 决策 面 ) 的 定义 中 ， 表 示 为 
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支持 向 量 支持 向 量 
数据 数据 
图 6-3 
数 据点 zu ( 属 丁 类 多 | ) 落 在 分 高 区 载 之 内 ， 提 在 决策 币 正确 的 一 侧 1325] 
日 数据 点 x( 局 于 类 %; ) 落 在 次 策 面 钳 误 的 一 侧 
dwrD 交 1- = 12 (6.22) 


这 里 & 称 为 松 凶 变 量 (slaok variable); 它们 度量 一 个 数据 点 对 模式 可 分 的 理想 条 件 的 偏离 程 
度 。 对 于 0<& <1， 数 据点 落 人 分 离 区 域 的 内 部 ， 但 是 在 决策 面 的 正 葡 一 侧 ， 如 图 6-3a 所 
未。 对 于 站 > 1， 数 据点 落 到 分 窗 超 平面 的 错误 一 侧 ， 如 图 6-3h 所 示 。 支 持 向 量 是 那些 精确 
满足 式 (6.22) 的 特殊 数据 点 ， 即 使 5 > 0。 注 意 ， 如 果 一 个 扣 >0 对 应 的 样本 被 遗弃 在 训练 集 
外 ,决策 面 就 要 改变 。 因 此 ， 支 持 向 量 的 定义 对 线性 可 分 和 不 可 分 的 情况 都 是 相同 的 。 

我 们 的 自 标 是 找到 分 离 超 平面 使 其 在 训练 集 上 的 平均 错误 分 类 的 误差 最 小 。 为 了 达到 这 
一 点 ， 通 过 对 权 值 向 量 w 最 小 化 泛 函 


























亚 ( - 26 -D 
泛 函 满足 式 (6.22) 的 约束 条 件 和 对 ‖ 严 | 的 限制。 函数 /8) 是 一 个 指标 杰 数 ,由 
0 车 ss<0 
[= 若 s>0 


定义 。 不 幸 的 是 ，@( 旨 对 w 的 最 小 化 是 非 凸 的 最 优化 问题 ， 它 是 中 一 完全 的 ”。 
为 了 使 最 优化 问题 数学 上 易 解 ， 我 们 写 出 
@(E) = 2 
逼近 泛 函 下 (人 )。 而 且 ， 汪 表 机 对 机 和 到 的 最 小 化 公式 简化 计算 ， 即 
亚 (w,5) = 去 ww+ cs (6.23) 
如 前 一 样 ， 最 小 化 式 (6.23) 中 第 1 项 的 VC 维 数 有 关 。 至 于 第 2 项 Zi 人 ， 
它 是 测试 错误 数目 的 一 个 上 界 。 在 式 (6.23) 中 代价 函数 的 公式 与 结构 风险 最 小 化 原则 完全 易 


全 
参数 C 控制 机 器 的 复杂 性 和 不 可 分 离 点 数 之 间 的 平衡 ;这 样 它 也 可 以 被 看 作 是 一 个 " 正 
则 化 "参数 的 形式 。 人 参数 C 由 使 用 者 选 定 。 这 可 由 下 面 两 种 方法 之 一 完成 : 


[ 屯 
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， 参数 5C 由 实验 雇 定 ， 通 过 标准 使 用 训练 /确认 ) 浏 试 集 ， 它 是 重 采 样 的 粗略 形 虑 。 

， 它 和 由 分 析 决 定 ， 从 式 (6.19) 估 计 YG 维 铭 和 使 用 基于 YC 维 数 的 机 器 泛 化 性 能 的 界 。 

无 沦 娜 种 情况 ， 泛 前 昌 (w, 5 对 和 1 上 1 求 最 优化 ， 满 足 式 (6.22) 描述 的 约束 条 件 和 
8 宕 0。 这 样 做 ，w 的 范 数 平 方 波 认 为 十 一 个 关于 不 可 分 离 点 的 联合 最 小 化 中 一 个 数量 项 ， 
而 不 是 作为 强加 在 关于 不 可 分 离 点 数量 的 最 小 化 上 的 一 个 约束 条 件 。 

对 刚刚 陈述 的 不 可 分 模式 的 最 优化 问题 .包括 线性 可 分 模式 的 最 优化 问题 作为 它 的 一 种 
特 珠 情况。 其 体 地 ， 在 式 (6.22) 和 式 (6.23) 中 对 所 有 的 半 置 5 =0， 就 把 它们 化 简 为 相应 的 
线性 可 分 情 红 。 

我 们 现在 对 不 可 分 离 的 情况 的 原 问题 可 以 正式 地 陈述 如 下 : 

给 定 训 练 样本 1(xX, , 夏 )|“， ， 寻 找 权 值 向 量 WwW 和 偏 置 的 最 优 值 ， 使 得 它们 满足 约束 条 
件 

由 (wx TB) 21- 和 对 于 让 = 12， 史 
外 沁 0 对 所 有 的 

并 且 使 得 私 值 向 量 四 和 松弛 变 童 & 最 小 化 代价 函数 


三 (w,8) = 王 ww+ C > 
其 中 ，C 是 使 用 者 选 定 的 正 参数 ， 
使 用 Lagrange 乘 子 的 方法 ， 以 一 种 与 6.2 节 所 描述 的 相似 方式 来 处 理 ， 我 们 可 以 得 到 不 可 分 
离 模式 的 对 偶 问 题 的 表示 如 下 (参看 习题 6.3) 
给 定 训练 样本 1(& ， 蕊 )| 弛 找 野 大 化 日 标 要 
oa = 袜 。 - 二 addwra 


的 Lagmange 条 子 ja | ， 满 足 约 来 条 件 


(0<a scC 对 于 6 2 
其 中 ，C 是 使 用 者 选 定 的 正和 参数 ， 


注意 ， 松 弛 变量 5 和 它们 的 Lagrange 乘 子 都 不 出 现在 对 偶 问题 里 。 除 了 一 些 少许 的 但 很 重要 

的 差别 外 ， 不 可 分 模式 的 对 偶 问 题 与 线性 可 分 模式 的 简单 情况 相似 。 在 两 种 情况 下 ， 最 大 化 

的 目标 函数 @iz} 是 相同 的 。 不 可 分 离 情 况 与 可 分 离 情 况 的 不 同 在 于 限制 条 件 r >0 被 蔡 换 

为 条 件 更 强 的 0<m < C。 除 了 这 个 修改 ， 不 可 分 离 情况 的 约束 最 优化 问题 和 权 值 向 景 mw 和 

偏 填 6 的 最 优 值 计算 过 程 与 线 性 可 分 离 倩 况 的 一 样 。 还 要 注意 支持 向 量 和 以 前 的 定义 相同 。 
权 值 向 量 w 的 最 优 佣 由 








= oid 和 (6.24) 


给 出 ， 其 中 从 是 支持 向 量 的 个 数 。 决定 信 芭 上 优 值 所 使 用 的 方法 也 与 以 前 神志 的 过 程 相 
亿 。 具 体 地 ，kubn-Tucker 条 件 被 定义 为 








过 形 册 可 儿 





cm + -T+ 上 = 0， = 1 2， (6.25) 
和 is =0， 人 《6.26) 
式 (6.25) 是 式 (6.14) 的 改写 单位 1 被 (1 - $ ) 代 替 ,， 至 于 式 (6.26)，j 是 Tagrange 腰子 ， 引 
人 它 的 目的 是 对 所 有 强制 松弛 变量 $ 为 非 负 。 在 鞍点 对 于 原 问题 的 Lagrange 函数 对 松弛 变 
量 名 的 导数 的 值 为 零 ,计算 这 个 值得 公 
x+ 有 = C (6.27) 
联合 式 (6.26) 和 式 (6.27)， 我 们 有 
S =0， 世 果 mx<C (6.28) 
我 们 可 以 次 定 最 优 偏 置 量 六 如 下 ， 取 训练 集中 满足 0< .< C 的 任意 数据 点 (x, , 双 ). 因此 
和 =0， 并 对 式 (6.25) 使 用 那个 数据 点 。 然 而 ， 从 数值 的 角度 看 ， 采 用 从 训练 样本 中 所 有 有 这 
样 的 数据 点 得 到 的 &. 的 平均 值 更 好 ( Burges, 1998)。 


6.4 怎样 建立 用 于 模式 识别 的 支持 向 量 机 


有 了 关于 对 不 可 分 离 模式 怎样 找到 最 优 超 平面 的 知识 ， 我 们 现在 正式 描述 建立 用 于 模 
式 - 识别 任务 的 支持 向 量 机 。 

基本 上 ， 支 持 向 量 机 ? 的 思想 建立 在 两 个 数学 运算 上 ， 现 概述 如 下 并 在 图 6-4 中 说 明 : 

1. 输 人 向 量 到 高 维特 征 空间 的 非 线性 映射 ， 特 征 空间 对 输入 和 输出 都 是 隐藏 的 。 

2. 构造 一 个 最 优 超 平面 用 于 分 离 在 第 1 步 中 发 现 的 特征 。 

两 个 操作 的 基本 理由 在 下 面 解释 。 



































输入 ( 数据 ) 空间 
图 6-4 从 输 人 空间 到 特征 空间 的 非 线性 映射 9( …) 


操作 1 根据 第 5 章 中 讨论 的 关于 模式 可 分 性 的 Cover 定 理 执行 。 考 虑 由 非 线性 可 分 模式 
构成 的 输入 空间 。Cover 定 理 陈 术 为 : 如 果 两 个 条 件 均 满足 ， 那 么 多 维 空间 能 变换 为 一 个 新 
的 特征 空间 ， 使 得 在 特征 空间 中 模式 以 较 高 的 概率 为 线 几 可 分 的 。 首 先 ， 变 换 是 非 线性 的 。 
其 次 ， 特 征 空间 的 维 数 是 足够 高 的 。 这 两 个 条 件 在 操作 1 中 体现 。 然 而 ， 注 意 Cover 定理 没 
有 讨论 分 离 超 平面 的 最 优 性 。 只 有 使 用 一 个 最 优 分 离 超 平面 使 YC 维 数 达到 最 小 和 获得 省 化 
能 力 。 

接着 要 说 明 的 是 第 2 个 操作 从 何 而 来 。 具 体 地 ,操作 2 利用 建立 最 优 分 离 超 平面 的 思 
想 ， 它 根据 6.3 节 提 述 的 理论 ， 但 是 有 一 个 根本 的 不 同 ; 现在 分 离 超 平面 被 定义 为 从 特征 空 
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间 得 出 的 向 量 线性 乓 数 ， 厅 不 大 从 原始 和 输 和 人 空间。 更 重要 的 是 ， 这 个 超 乎 而 的 居 造 与 建立 在 
VC 维 数理 论 上 的 结构 风险 最 小 化 的 原则 是 一 和 化 的 。 这 个 构造 与 内 积 核 的 求 值 有 关 。 
内 积 核 

令 x 才 示 从 和 输入 空间 得 到 的 向 量 ， 假定 维 数 为 mo。 令 19 (zi 表示 从 输入 空间 到 特征 
空间 的 一 个 非 线性 变换 的 集合 : mi, 旦 特征 空间 的 维 数 。 对 所 有 的 六 假定 外 ( 根 据 先 验 知 
识 定义 的 .给 定 非 线性 变换 的 这 样 一 个 集合 ， 可 以 定义 一 个 充当 决策 面 的 超 平面 








瑟 ogt + =0 《6.29) 
其 下 ja 15 表 示 把 特征 空间 过 技 到 输出 空间 的 线性 权 值 的 集合 ,8 是 偏 冶 。 我 们 可 以 简化 为 


2 多 (5) = 0 (6.30) 
甚 中 假定 对 所 有 的 x，m(x) = 1， 所 以 wm 表示 信 置 4。 式 (6.30) 定 义 了 一 个 决策 面 ， 这 个 问 
策 面 在 特征 空间 根据 机 可 的 线性 权 值 进行 计算 。 通 过 特征 空间 ，@ ( 允 表 示 提 供给 权 值 wy 的 
输入 。 定 义 向 景 





CD = -CCP (ED)] (6.3) 
其 中 ， 由 定义 有 
gxX) = 1 对 所 有 的 x (6.32) 
实际 上 ， 向 量 9(x) 表示 由 于 输入 向 量 x 在 特征 空间 诱导 出 的 “ 像 *， 如 图 6-4 所 示 。 那 么 ， 
利用 这 个 像 用 紧 凌 的 形式 定义 决策 面 : 
wrp(x =0 (6.33) 
我 们 使 式 (6.12) 适 合 现在 涉及 特征 空间 的 倩 形 ， 在 特征 空间 中 现在 寻找 特征 的 “线性 "可 分 
性 ， 可 以 写成 


w = 马 saet) (6.34)》 

其 中 特征 向 量 gx ) 与 在 第 ; 个 例子 里 输入 模式 x 相对 应 。 因 此 将 式 (6.34) 代 入 式 (6.33)， 
可 以 定义 在 特征 空间 中 计算 的 决策 面 如 下 

写 uwr (zx)9(x) = 0 (6.35) 


项 昌 OO )8(x) 表 未 特征 空间 中 由 第 ;个 周子 的 输入 模式 和 输入 向 量 x 诱 学 的 两 个 向 量 内 
积 。 这 样 我 们 可 以 引信 内 积 核 (inner-produet kemel)， 由 大 (xxi) 表 示 并 且 定 义 为 





K 开 (X) = 中-()9(x) = stoetm = 12 (6.36) 
从 这 个 定义 ， 立即 看 出 内 积 核 是 自 变量 的 对 称 品 娄 ， 表示 为 
天 (xi ) = 天 (XXX) 对 所 有 的 (6.37) 


最 重要 的 是 ， 我 们 可 以 使 用 内 积 核 K(x,z ) 在 特征 空间 中 建立 最 优 超 平面 无需 用 显 式 的 形 
式 考虑 特征 空间 自身 。 将 式 (6.36) 代 人 (6.35) 容 易 看 出 这 一 点 ， 此 时 最 优 超 平面 定义 为 
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adKOxx,) = 0 (6.38) 


Mercer 定理 


式 (6.36) 对 于 内 积 核 函 数 K(x,x,) 的 展开 是 在 泛 函 分 析 中 出 现 的 Memer 定 理 的 一 种 特殊 
情形 。 这 个 定理 可 以 正式 表述 如 下 (Mereer, 1908; Courant and Hilbert,1970) : 

K(x,x) 表 示 一 个 连续 的 对 称 核 ， 其 中 xX 定 义 在 闵 区 间 asX<sb, 丈 类似。 核 天 (X) 可 
以 被 展开 为 级 数 

Kex) =- 王 xw(ow Ce) (6.39) 
其 中 所 有 的 X 均 是 正 的 。 为 了 保证 这 个 展开 式 是 合理 的 并 且 为 绝对 一 致 收 化 的 。 充 要 条 件 
是 条 件 
[ree)ecowCe)arex >0 


对 于 所 有 满足 | 加 (x)dx < oo 的 亚 (.) 成 立 。 





函数 g, (x) 称 为 展开 的 特征 函数 ，), 称 为 特征 值 。 所 有 的 特征 值 均 为 正 数 这 个 事实 意味 着 核 
天 (Xi ) 是 正定 的 。 

根据 Mereer 定理 ， 我 们 有 如 下 的 结论 ; 

， 对 于 入 zx1， 输 入 向 量 x 在 特征 空间 中 诱导 出 的 第 ; 个 像 V 和 Xig, ( 妇 是 一 个 展开 的 特征 

函数 。 

。 理论 上 ， 特 征 空间 的 维 数 ( 即 特征 值 /特征 函数 的 数目 ) 可 以 是 无 穷 大 。 

Mereer 定理 仅 告诉 我 们 一 个 候选 核 是 不 是 一 个 在 某 个 空间 中 的 内 积 核 ， 从 而 允许 用 于 一 
个 支持 向 量 机 。 但 是 ， 它 并 没有 说 如 何 去 构 造 函 数 p,(X); 我 们 不 得 不 自己 来 做 。 

从 定义 式 (6.23) 可 以 看 出 ， 支 持 向 晤 机 包含 一 种 隐 伟 的 正则 化 形式 。 特 别 地 ， 使 用 根据 
Mereer 定 理 定义 的 核 中 (xm ) 和 根据 算 子 卫 进行 正则 化 对 应 ， 使 得 核 函 数 K(x,x ) 是 3D 
的 梅林 函数 ， 其 中 应 是 了 的 伴随 算 子 (Smola and Schalkopf, 1998)。 正 则 化 理论 在 第 5 章 讨 
论 。 


支持 向 量 机 的 最 优 设计 


式 (6.36) 的 内 积 核 K(x,x ) 的 展开 式 允 许 我 们 建立 一 个 决策 面 ， 在 输入 空间 中 它 是 非 线 
性 的 ， 但 它 在 特征 空间 的 像 是 线性 的 。 有 了 这 个 展开 式 ， 我 们 现 对 支持 向 量 机 爱 约 束 的 最 优 
化 的 对 偶 形式 陈述 如 下 : 


给 定 训练 样本 10， 起 ) | 沁 ， 肝 找 最 大 化 目标 双 孝 
oa = 交 0 - 立 六 21woddK(s ,as》 (6.40) 
1 5 71 
的 Lagrange 冬 子 tai|， 满 中 约束 条 件 
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(LI) >od = 0 

人 G)0 < asC =12 
其 中 ，C 是 使 用 者 选 定 的 正 参 数 。 
注意 ， 的 束 (I) 由 Lagrange 画 数 dj 对 和 (x) = 工 对 应 的 偏 置 ”= zw 的 最 优化 产生 。 这 里 陈 
述 的 对 偶 问 题 与 在 6.3 节 中 考虑 的 不 可 分 模式 情况 的 形式 相同 ， 除 了 内 积 双 x 被 内 积 核 
必 (Cx ,5) 代 符 的 事实 。 我 们 可 以 把 K(x ,5 ) 看 作 是 wx w 的 对 称 和 矩阵 政 的 第 六 - 项 元 素 ， 
表示 为 

并 = | 天 (K X ) 作 = 《6.41) 

在 找到 了 由 %.: 表 示 的 Lagrange 乘 子 的 最 优 值 之 后 ， 我 们 可 玉 确 定 相应 的 线性 权 值 向 量 最 优 
值 ww ， 在 新 的 情况 下 它 改 变 式 (6.17) 的 公式 联系 特征 空间 到 答 出 空间 。 特 别 地 ， 认 识 到 像 
?xi) 从 输入 到 权 值 向 量 只 所 起 的 作用 ， 我 们 可 以 定义 w, 为 


= ex) (6.42) 
其 中 9(x,) 是 x 在 特征 空间 诱导 的 像 。 注 意 w, 的 第 一 个 分 量 表示 最 优 偏 置 久 。 
支持 向 量 机 的 例子 


核 K(x,x, ) 的 要 求 是 满足 Mercer 定理 。 在 这 个 要 求 之 内 ， 怎 样 选 择 它 是 有 一 定 自由 度 
的 。 表 6-1 小 结 支持 向 量 机 的 三 个 普 志 类 型 的 内 积 核 函 数 ; 多 项 式 学 习 机 器 ， 径 向 基 函 数 网 
络 ， 两 层 感 知 器 。 下 面 几 点 是 值 注意 的 ; 














表 61 内 积 核 小 结 
支持 向 量 机 类 型 内 积 核 杰 (x,xi) = 1 2 , 帮 评述 
多 项 式 学 习 机 CCxTRi + 指数 p 由 使 用 者 预 先 许 定 
低 向 林 是 数 网 络 oo( -二 00 宽度 对 所 有 核 相 同 ， 由 使 用 者 预 先 指定 
两 层 感 知 器 Lanh( 多 xr3x 二 外 ) 只 有 一 些 特定 的 请 ,有 值 满足 Mereer 定理 





1, 用 于 支持 向 量 机 的 多 项 式 和 径 向 基 函 数 类 型 的 内 积 核 总 满足 Mercer 定理 。 相 反 . 用 
于 支持 向 量 机 的 两 层 感知 器 的 类 型 ， 其 内 积 核 受到 某 种 限制 ， 如 表 6-1 最 后 一 行 所 未。 后 面 
的 条 目 证 实 如 下 的 事实 ; 判定 一 个 给 定 的 核 是 否 符合 Mercer 定理 确实 是 一 件 困难 的 事情 ; 
见习 题 6.8。 
2. 对 所 有 三 种 机 器 类 型 ， 特 征 空间 维 数 由 从 训练 数据 抽取 的 支持 向 量 的 个 数 决定 ， 这 
些 训练 数据 是 通过 解决 受 约束 最 优化 问题 来 获得 的 。 
3. 支持 向 量 机 的 基本 理论 避免 雇 发 式 的 需要 ， 它 们 常 被 用 在 传统 的 径 向 基 函 数 网 络 和 
多 层 感知 器 的 设计 上 面 : 
” 在 径 向 基 范 数 类 型 的 支持 向 量 机 中 ， 径 向 基 函 数 的 数量 和 它们 的 中 心 分 别 由 支持 向 
基 的 个 数 和 支持 向 量 的 值 自动 决定 。 
”在 两 层 感知 器 类 型 的 支持 向 量 机 中 ， 隐 藏 神经 元 的 个 数 和 它们 的 权 值 向 量 分 别 由 支 

持 向 量 的 个 数 和 支持 向 量 的 值 自动 决定 。 
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图 6-5 显 不 一 个 支持 向 量 机 的 体系 结构 。 


含 年 
As> NN 
只 人 灾 他 呈 ) 
输入 | 人 wy 
了 
量 十 本 允 
< 洲 
冯 坎 输出 
x 神经 元 
要 半 wj 级 入 凡 


隐藏 





昼 6-5 支持 向 量 机 的 体系 结构 


不 管 支持 向 量 机 是 怎样 实现 的 ， 基 本 上 它 是 不 同 于 传统 的 设计 多 层 感 知 器 的 方法 。 在 传 
统 的 方法 里 ， 模 型 复杂 性 由 保持 特征 ( 即 隐藏 神经 元 ) 的 数量 最 小 所 控制 。 另 一 方面 ， 支 持 向 
量 机 提供 一 个 学 避 机 器 设计 的 解决 方案 ， 其 模型 复杂 性 的 控制 独立 于 维 数 ， 小 结 如 下 
〈《Vapnik, 1995,19987 : 
， 概念 问题 。 有 意 使 特征 ( 隆 藏 ) 空 间 的 维 数 足够 大 ， 使 得 可 以 在 这 个 空间 建立 超 平面 
形式 的 决策 面 。 为 了 一 个 好 的 世 化 性 能 ， 模 型 的 复杂 性 通过 对 所 建立 的 超 平面 添加 
一 些 特定 的 约束 条 件 米 控 制 ， 这 导致 训练 数据 中 的 一 小 部 分 被 朱 出 来 作为 支持 向 量 。 
。 计算 问题 。 在 高 维 空间 的 数值 最 优化 受到 维 数 灾 的 影响 。 通 过 使 用 一 个 内 积 核 (按照 
Mereer 定理 定义 ) 的 概念 ， 和 求解 在 输 人 (数据 ) 空 间 用 形成 的 约束 最 优化 问题 的 对 介 [3] 
形式 ， 吉 免 计 算 上 的 问题 。 
6.5 例子 : XOR 问题 { 再 讨论 ) 
为 了 说 明 支 持 向 量 机 设计 过 程 ， 我 们 再 讨论 在 第 4 章 和 第 5 章 讨论 过 的 XDR( 蜡 或 ) 问 
题 。 表 6-2 给 出 了 4 个 可 能 状态 的 输 人 向 量 和 期 望 的 响应 。 


表 f2 XOR 问 题 


输入 向 基 x 期 望 响 应 了 
-1 

















(=-1-D 
(-L+D 
(+l1 -1 
{+1+1) 


为 了 进行 处 理 ， 令 (Cherkassky and Mulier, 1998) 
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下 (时 ,更 ) = 【〔] 十 7X 《6.43) 
用 x= [xi 和 xi = [xxzs]  ， 因 而 内 积 核 KCx,x, ) 可 应 用 不 同 次 数 的 单质 式 表示 如 下 : 
天 ( 和 和 ) = 1 + 天 和 二 281gzsia 二 和 2Y 十 2818 二 2537 
输入 向 量 x 在 特征 空间 中 诱导 的 像 可 推断 为 
gz) = [1,x1V2xixa 呈 yx V2xo]7 
类 似 地 四 (和 ) = [xyV2x0 sp W2m 2xo]7， = 12,3,4 
由 式 (6.41) 我 们 可 发 现 


9 
1 
1 
1 


一 一 
rm 一 一 
中 一 一 一 


因此 目标 函数 的 对 偶 形 式 为 (参看 式 (6.40) ): 
Q@(oy= 四 +o+om+o 一 到 Gd -2auom - 2aom +2aioa 十 


9@ +2om -2aa +9@ -20a +9m) 
对 Lagrange 乘 子 优化 Ca) 产 生 下 列 联 立 方程 组 ， 
9al -路 -中 + 史 = 上 
-四 +9m+o-o=1 
-o+o@+9ua-o=1 
如 一 和 -人 +9au 二 1 工 
因此 ，Lagrange 乘 子 的 最 优 值 为 
1 





Qt = So2 二 0o3 二 Co4 三 如 
这 个 结果 说 明 。 本 例 中 所 有 4 个 输入 向 量 |x 上 -都 是 支持 向 量 。Q(a) 的 最 优 值 是 
0 = 于 
相应 地 ， 我 们 可 写 出 
工 | ws? = 圭 
2 和 
或 1 w.1l = 二 
2 


从 式 (6.42)， 我 们 发 现 最 优 权 值 向 量 是 
本 9) (5) -9(z)] 


1 1 1 1 o 
1 1 1 1 0 

1 | | -| | -2 12 -1 
= 引 - 2 所 as aa 
-v2| | - Y2 V2 0 


-v2 V2 -v2- LV2 0 
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ww, 的 第 一 个 分 量 表 示 偏 置 ! 为 0。 
最 优 超 平面 定义 为 (参看 式 (6.33)) 








wzg(x) = 0 
「 1 
好 
即 0, 0， 区 0 0. | - 
V5xi 
LV2x。 
这 归结 为 -xxa=0 
对 于 XOR 问题 的 多 项 式 形式 的 支持 向 量 机 见 图 6-6a。 对 = 和 = -1 和 和 = 和 = +1， 











得 出 y= ~ 对 和 = -1， 2 = +1 以 及 z= +1 和 = -1, 输出 y= +1。 因此 如 图 6-6b 
所 示 ，XOR 问题 获得 解 。 











了 二 


到 





图 6-6 
可 解决 XOR 问题 的 多 项 式 机 器 b)XOR 问题 的 四 个 数据 点 在 特定 空间 导出 的 观 像 


6.6 计算 机 实验 


在 这 个 计算 机 实验 中 ,我 们 回 到 第 4 章 和 第 5 章 研 究 过 的 模式 识别 问题 。 实 验 涉及 两 个 
部 分 重 释 的 标记 为 1(6, 类 ) 和 标记 为 2(4, 类 ) 二 维 高 斯 分 布 的 分 类 。 这 两 个 数据 集 的 散 列 图 
可 以 风力 4- 14。 用 Bayes( 最 优 ) 分 类 器 所 得 到 的 正确 分 类 的 概率 为 
严 = 81.15 狐 
表 6-3 给 出 利用 支持 向 量 机 对 这 个 数据 集 进 行 计算 机 实验 所 获得 的 结果 的 小 结 。 对 于 内 
积 核 ， 我 们 使 用 了 径 向 基 天 数 


天 (xxX,)》 = | 一 


其 中 相同 的 宽度 = 4 被 用 于 数据 集中 所 有 的 点 。 机 器 对 总 数 为 w = 500 的 数据 点 上 进行 训 
练 ， 这 些 数据 点 大 从 代表 这 两 个 类 的 数据 的 总 体 中 随机 抽取 的 。 用 于 正则 化 的 参数 C = 0.1。 

表 6-3 给 出 的 结果 是 从 5 次 不 同 的 实验 中 得 到 的 ， 对 于 每 次 试验 ， 都 采用 500 个 点 进行 
训练 ,并 用 32 000 个 数据 点 进行 测试 。 这 五 次 试验 的 平均 正确 分 类 的 概率 是 81.40% ， 这 个 
平均 值 几 乎 和 从 Bayes 分 类 器 得 到 的 相等 。 在 这 些 实验 的 一 次 实验 中 ， 最 优 结果 被 超出 了 
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0.05% ， 这 是 由 于 试验 误差 产生 的 。 
表 6-3 使 用 支持 向 量 机 的 两 类 模式 分 类 试验 结果 小 绩 
共同 宽度 思 = 4， 正 则 化 参数 C=0.1 

正确 分 类 的 概 李 玉 弛 22 38.28 81.55 81.49 且 .45 
支持 向 基数 呵 A 298 287 283 287 286 

这 个 由 支持 向 量 机 获得 的 近乎 完美 的 
分 类 缚 桌 由 图 6-7 所 未 的 决策 边界 进步 4 最 优 
确定 ， 这 个 图 是 出 这 五 次 机 器 的 实现 中 随 
棉 挑 出 的 一 次 得 到 的 。 在 这 个 图 中 Bayes as 
分 类 器 的 决策 边界 也 包括 在 内 ， 边 界 是 由 [ 
一 个 辆 构成 的 ,圆心 是 过 =[ - 23.0] ， f 
半径 是 "= 2.34。 图 6-6 清楚 显示 支持 向 
量 机 可 以 构造 类 6@， 和 类。 间 的 决策 边界 - 
使 得 它 儿 乎 和 最 优 决 策 边界 相同 。 
让 我 们 回 到 表 6-3 给 出 的 实验 结果 的 
小 结 ， 第 二 行 显示 支持 向 量 机 的 5 个 不 同 
实现 的 大 小 。 这 些 结果 表示 对 于 这 个 试 人 二 
验 ， 支 持 向 量 机 学 习 算法 选择 了 将 近 60 色 
的 数据 点 作为 支持 向 量 。 图 6.7 模式 分 类 计算 机 实验 的 决策 面 

对 于 不 可 分 离 的 异 式 ， 所 有 训练 误 状 
导致 它 休 自身 的 支持 向 量 ， 这 是 从 Kuhn-Tucker 条 件 得 到 的 。 对 于 日 前 的 实验 ， 误 差 率 约 为 
20 和 % 。 对 于 一 个 大 小 为 500 的 样本 ， 我 们 发 现 大 约 1/3 的 支持 向 量 事实 上 是 由 于 分 类 误差 而 
产生 的 。 
简 评 

比较 这 个 建立 在 支持 向 量 机 基础 上 的 简单 计算 机 实验 的 结果 ， 和 4.8 节 报 告 的 在 多 层 感 
知 器 上 对 同一 个 数据 样本 采用 误差 反 向 传播 算法 进行 训练 产生 的 相应 结果 ， 我 们 可 以 得 出 以 
下 结论 : 

1 . 对 于 感 兴趣 的 问题 ， 支 持 向 量 机 具有 以 接近 最 优 的 方式 解决 模式 分 类 问题 的 固有 能 
力 。 此 外 ， 它 能 获得 如 此 显著 的 任 能 而 无 需 在 机 器 的 设计 中 嵌 人 问题 域 知识 。 

2. 另 一 方面 ， 利 用 反 向 传播 算法 训练 的 多 层 感知 器 提供 模式 分 类 问题 的 计算 高 效 的 解 。 
对 这 里 描述 的 两 类 实验 ,我们 能 够 利用 仅 用 两 个 隐藏 神经 元 的 多 层 感 知 因 达到 79.70% 的 正 
确 分 类 概率 。 
在 做 这 个 简 评 中 ， 我 们 突出 了 模式 分 类 的 这 两 种 方法 各 自 的 优点 。 但 是 ， 为 了 得 到 公允 
的 评论 我 们 必须 确认 它们 各 自 的 缺点 。 在 支持 向 量 机 的 情况 ， 近 乎 完美 的 分 类 性 能 是 付出 很 
大 计算 复杂 任 代价 而 取得 的 。 另 一 方面 ， 对 利用 反 向 传播 算法 训练 多 层 感 知 贱 对 同一 模式 分 
类 任务 ， 要 达到 和 支持 向 量 机 差不多 的 性 能 ， 必 须 做 两 件 事 : 在 感知 器 的 设计 中 建立 问题 领 
域 的 知识 ， 以 及 调整 大 量 的 设计 参数 ， 对 于 困难 学 习 任 务 这 是 令 人 头痛 的 实践 。 
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6.7 -不 敏感 损失 函数 


到 目前 为 赴 ， 本 章 集 中 于 利用 支持 向 量 机 求解 模式 识别 任务 。 现 在 ， 我 们 考虑 利用 支持 
向 量 机 求解 非 线 性 回归 问题 。 为 了 准备 这 个 讨论 ,我们 首先 讨论 适合 这 类 学 习 任 务 的 最 优化 
准则 问题 . 

在 第 4 章 关 于 多 层 感 知 器 和 第 5 章 关 于 径 向 基 郑 数 网 络 的 讨论 中 ， 我 们 利用 二 次 损失 函 
数 作为 这 些 网 络 的 优化 准则 。 利 用 这 个 准则 的 主要 原因 是 数学 上 的 ， 即 为 了 计算 上 的 方便 。 
但 是 ， 最 小 二 乘 佑 计 器 对 异常 点 (outlier)( 即 对 于 一 个 微小 模型 得 到 异常 大 的 观察 ) 的 出 现 非 
党 敏感， 并 卫 当 加 性 噪声 的 固有 分 布 有 很 长 的 昆 部 时 它 表现 很 差 。 为 隐 服 这 些 局 限 ， 我 们 
需要 一 种 和 鲁 棒 的 估计 器 ， 它 对 模型 小 的 改变 不 敏感 。 

以 鲁 棒 性 作为 设计 目标 ， 对 于 任何 和 鲁 棒 性 的 数值 度量 必须 考虑 到 由 于 微小 噪声 模型 的 一 
个 e- 偏 差 而 可 能 产生 最 大 性 能 退化 。 根 据 这 种 观点 ， 一 种 最 优 重 棒 估 计 过 程 是 最 小 化 最 大 
的 性 能 恶化 ， 因 而 是 一 种 最 小 最 大 过 称 (Huber,1981)。 当 加 性 噪声 的 概率 密度 函数 关于 原点 
对 称 时 ， 求 解 非 线 性 回归 问题 的 最 小 最 大 过 程 利用 绝对 误差 作为 被 最 小 化 的 量 (Huber， 
1964)。 也 就 是 说 ， 损 失 函 数 具 有 形式 

(Car) =1g-7Il (6.44) 
其 中 4 是 期 望 响 应 而 y 是 估计 器 输出 
为 了 构造 支持 向 量 机 逼近 期 望 的 响应 4， 我 们 利用 式 (6.4) 的 损失 函数 的 扩展 ， 它 由 
Vapnik( 1995 ,1998) 最 早 提出 ， 这 里 可 描述 为 
1g@-71-e， 对 于 1d -ylz>e 

Le = 其 和 
其 中 上 是 指定 的 参数 ， 损 失 函 数 PCd,y ) 称 为 es- 不 教 地 办 
感 损 失 函 数 (s-insensitive loss functiony。 如 果 估 计 器 输出 
y 和 期 望 输出 < 的 偏差 的 绝对 值 小 于 =。， 则 它 等 于 零 ， 
否则 它 等 于 偏差 绝对 值 减 皮 se。 式 (6.44) 的 损失 函数 是 
s- 不 敏感 损失 函数 在 s= 0 时 的 特殊 情形 ， 图 6-8 说 明 
Z.(d,y) 和 误差 & -7 的 依赖 关系 。 0 4 


6.8 ”用 和 寺 非 线性 回归 的 支持 向 量 机 轴 6-8 “不 化 感 损失 函数 


考 碟 非 线性 回归 模型 ， 标 量 4 对 向 量 x 的 依赖 可 描述 为 
d = 大 x)+v (6.46) 
标量 值 非 线性 基 数 所 x) 定 义 为 在 第 2 章 讨 论 的 条 件 期 BE[ DIx]; 是 一 个 随 本 变量 ， 它 的 一 
次 实现 记 为 d。 加 性 噪声 项 " 是 统计 独立 于 输入 向 量 x 的 ， 函 效 拟 . ) 和 噪声 * 的 统计 特性 是 
未 知 的 。 我 们 所 有 可 用 的 信息 就 是 一 组 训练 数据 {{x ,二 )|，， 其 中 x 是 输入 向 量 x 的 一 个 
样本 值 ， 乙 旦 模型 输出 4 的 相应 值 。 问 题 是 提供 4 对 x 的 依赖 的 估计 。 
进一步 我 们 假设 gd 的 估计 记 为 y， 它 是 由 一 组 非 线性 基 末 数 jp;(x) |%。 的 展开 得 到 的 ; 





























(6.45) 









































7 = 乙 op = wr9(x) (6.47) 
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其 中 轨 =[ 和 GO 9 (] 


和 = 
和 以 前 一 样 假定 四 (x) = 1， 这 样 权 值 ww 表示 偏 置 5 。 需 求解 的 问题 是 最 小 化 经 验 风 险 
太 = 广 补 (dy ) (6.48) 
满足 不 等 式 
1 wz se (6.49) 


其 中 co 是 常数 。s - 不 敏感 损失 函数 六 (dy ) 在 前 面 式 (6.45) 中 定义 ， 我 们 可 以 引入 两 组 非 
负 的 松弛 变量 |s,| 和 18, 习 : 重 新 表示 这 个 约束 最 优化 问题 ， 松 匈 变 量 定义 为 : 





可 一 wrp(z) 三 e+， 二 12， (6.50) 
WOR) -三 (6.51) 
外 0 = 12 (6.52) 
全 0 = 1.2， 人 (6.53) 


松弛 变量 所 和 8 描述 式 (6.45) 定 义 的 s- 不 敏感 损失 函数 。 因 此 ， 这 个 约束 最 优化 问题 等 
价 于 最 小 化 代价 泛 函 





aowse) =- ce + 二 ww (6.54) 
满足 式 (6.50) 至 (6.53) 的 约束 条 件 。 结 合 在 式 (6.54) 的 泛 函 惠 (w,s,s ) 中 的 项 wzrw/2，、 我 们 
不 需要 式 (6.49) 的 不 等 式 约束 。 在 式 (6.54) 中 的 常数 C 是 用 户 给 定 的 参数 。 从 而 ， 我 们 可 以 
定义 Lagrange 函数 
JUwES aa yY)= C (6 十 侣 ) 二 ww- ua[wete) -下 +e+t]- 


Zu[d4 -weGx) Ye+ 人 ]- ZE + Ye) 


(6.5S) 
其 中 we 和 是 Lagrange 乘 子 。 式 (6.55) 右 边 最 后 一 项 涉及 y 和 ?, 是 为 了 确保 Lagrange 乘 
子 e“ ，w', 的 最 优 性 条 件 成 为 可 变形 式 。 要 求 对 w 和 松弛 变量 5 和 台 最 小 化 1(w,s,S .aa 7y， 
Y);， 同时 也 必须 对 ,和 Y ,Y;: 最 大 化 它 。 求 解 这 个 最 优化 ， 我 们 分 别 有 





= 六 (ww -we (6.56) 
轴 = CC- 《6.57》 
和 Y,= 台 -ao 《6.58) 


出 才 描述 的 Kw,S8 ,aa ,Y,Y) 最 优化 是 回归 的 原 问题 。 为 了 构造 相应 的 对 偶 问 题 ， 我 们 
将 (6.56) 至 (6.58) 代 入 (6.55) 中 ， 从 而 得 到 凸 泛 函 (经 过 化 简 之 后 ) 


(ed0= 补 dtc -ve) -si(e + - 


站 


， (6.59) 
Du -oil -oo)KGx xD) 
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其 中 大 ( 员 大) 是 按照 Mereer 定理 定义 的 肉 积 核 
天 (X ,X) = gx )g(X) 
我 们 得 到 约束 最 优化 问题 的 解 是 在 对 Lagrange 乘 子 和 v, 最 大 化 Q(c,w ) 得 到 的 ， 这 两 个 乘 
子 满足 加 人 和 常数 C 的 一 组 新 的 约束 条 件 ， 其 中 C 包含 在 式 (6.54) 的 函数 @(w,E,e ?的 定义 中 。 
我 们 现在 可 以 陈述 利用 支持 向 量 机 的 非 线性 回归 的 对 偶 问 题 如 下 : 
给 定 训练 样本 | 天 ,可 )h 7 ， 星 拒 Lagrange 乘 子 | 党 5 和 | oj 使 其 最 大 化 目标 邓 数 
QidJ = d -er -去 宙 放 -coOKG) 


二 


满足 约 来 条 件 
@ 交 人 -ai)=0 
CO)o<u<c， 1=T2… 
0<ew < Ci=T2N 


其 中 局 为 用 户 给 定 的 常数 。 


Lagrange 函数 最 优化 问题 中 ， 对 于 f(x) = 1 的 偏 置 》 = wa 产生 约束 条 件 (1) 。 因 此 ， 获 
得 最 优 的 和 以 , 的 值 后 ， 对 给 定 的 有 映 射 W(x? 我 们 可 以 利用 式 (6.56) 确 定 权 值 向 量 w 的 最 优 
值 。 注 意 和 模式 识别 问题 的 解 一 样 ， 在 式 (6.56) 的 展开 中 仅 有 一 些 系 数 丰 为 零 ; 特别 ，ai 了 
ov 对 应 的 数据 点 定义 为 机 器 的 支持 向 量 。 

s 和 C 是 控制 近 函数 


。 
PF(xW) = WwW = (ou 一 oO)KOS) (6.60) 


= 

VC 维 数 的 自由 参数 。s 和 ( 两 者 都 必须 由 用 户 选择 。 从 概念 上 讲 ，e 和 5 的 选择 提出 和 异 
式 分 类 中 参数 C 的 选择 同样 的 复杂 性 控制 问题 。 但 是 ， 实 际 上 回归 的 复杂 性 控制 是 一 个 更 
困难 的 问题 ， 这 是 由 于 下 列 原因 ， 

。 参数 e 和 C 必须 同时 调整 。 

” 回归 本 质 上 比 模式 分 类 更 困难 - 
< 和 C 选择 的 原则 方法 一 直 是 一 个 未 解决 的 研究 领域 。 

最 后 ， 和 用 于 模式 识别 的 支持 向 量 机 一 样 ， 用 于 非 线性 回归 的 支持 向 量 机 可 以 用 多 项 式 
项 学 习 机 、 径 向 基 函 数 网 络 或 两 层 感 知 器 实现 。 三 种 实现 方法 的 内 积 核 在 表 6-1 中 给 出 。 


6.9 小 结 和 讨论 


支持 向 量 机 是 为 了 设计 仅 含有 一 个 非 线性 单元 隐藏 层 的 前 馈 网 络 的 一 种 精巧 和 高 度 原则 
化 的 学 习 方法 。 它 由 植 根 于 VC 维 埋 论 的 结构 风险 最 小 化 原则 导出 ， 这 一 点 使 得 它 的 推导 更 
加 深奥 。 正 如 它 的 名 字 所 揭示 的 ， 机 器 的 设计 随 抽取 训练 数据 的 子 集 作为 支持 向 量 而 定 ， 因 
而 代表 数据 的 一 个 稳定 特征 。 支 持 向 量 机 包括 多 项 式 学 习 机 器 、 径 向 基 函 数 网 络 和 两 层 感 知 
器 作为 其 特殊 情形 。 因 此 ， 虽 然 这 些 方法 提供 训练 数据 的 内 在 统计 规则 的 不 同 的 表示 ， 但 是 
它们 都 深 于 支持 向 量 机 设置 的 一 个 共同 基础 。 

与 流行 的 反 向 传播 算法 不 同 ， 支 持 向 量 学 习 算法 仅仅 按 集 中 方式 进行 。 这 两 个 算法 存在 
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另 一 个 重要 差别 。 反 向 传播 算法 不 管 学 习 任 务 是 什么 都 最 小 化 一 个 二 次 损失 函数 。 相 反 ,， 上 
于 模式 识别 的 支持 向 量 机 学 习 算 法 和 用 于 非 线性 回归 有 很 大 区 别 ， 如 下 所 述 : 
。 当 完 成 模式 识别 任务 时 ， 支 持 向 重 学 习 算法 最 小 化 落 在 正 例 和 反例 分 离 边缘 内 的 训 
































练 样 汪 数 目 ; 这 只 是 近似 对 的 ， 因 为 使 用 丛 弛 变量 s 蔡 代 指标 函数 玫 5 - 1)。 有 虽然 


这 个 准则 和 最 小 化 分 类 误差 的 概率 不 完 
的 均 方 误差 准 则 更 适合 。 
， 当 完 成 非 线性 回归 任务 时 ， 支 持 向 量 学 


最 大 理论 的 平均 绝对 误差 准则 的 一 种 推广 。 因 此 算法 为 鲁 棒 性 的 。 


全 一 样 ， 但 是 它 被 认为 比 反 向 传播 学 习 算 法 


习 算 法 最小 化 的 e- 不 敏感 损失 函数 是 最 小 


不 管 学 习 任务 是 什么 ， 支 持 向 量 机 提供 一 种 独立 于 维 数 的 控制 模型 复杂 性 的 方法 。 特 别 
地 ， 利 用 定义 在 特征 (隐藏 ) 空 间 的 惩罚 超 平面 作为 决策 面 ， 模 型 的 复杂 性 问题 在 高 维 空间 中 
得 到 解决 ,结果 有 很 好 的 泛 化 人 性能。 通过 把 处 理 约束 最 优化 问题 集中 于 其 对 偶 问 题 ， 绕 过 维 
数 灾 的 困难 。 利 用 对 偶 设置 的 一 个 重要 原因 就 是 避免 在 数据 空间 中 定义 和 计算 可 能 的 高 维 数 


最 优 超 平面 的 参数 。 




















通常 支持 向 量 机 的 训练 包含 一 个 二 次 规划 问题 加 ， 这 个 问题 由 于 两 个 原因 而 有 吸引 力 ， 
” 它 保 证 找到 误差 曲面 的 全 局 极 值 点 ， 人 在 这 里 误差 是 指 期 望 响应 和 支持 向 量 机 输出 之 

















间 的 差异 。 
计算 可 以 被 有 效 的 执行 。 
最 重要 的 是 ， 通 过 使 用 一 个 恰当 的 内 积 核 ， 




















支持 向 量 机 可 以 根据 内 积 核 的 选择 白 动 计算 


所 有 重要 的 网 络 参 数 。 例 如 ， 在 径 向 基 函 数 网 络 的 情形 ， 核 函数 是 Gaues 函数 ， 对 于 这 种 实 














现 方法 ， 径 向 基 函 数 的 数目 和 它们 的 中 心 ， 以 及 线性 权 值 和 仿冒 水 平 ， 都 是 自动 计算 的 。 径 
向 基 函 数 的 中 心 由 二 次 优化 策略 挑选 的 支持 向 量 定义 。 支 持 向 量 通常 是 由 训练 样本 组 成 的 样 
本 总 体 的 一 部 分 。 因 此 我 们 可 以 将 利用 支持 向 量 机 学 习 过 程 所 得 到 的 RBF 网 络 的 设计 ， 看 


作 前 一 章 找 述 的 使 用 严格 插值 策略 得 到 的 设计 结 桌 的 一 种 希 莲 性 版 本 。 























可 以 用 几 个 商用 的 最 优化 库 包 求解 二 次 规划 问题 。 但 是 ， 这 些 库 的 使 用 受到 限制 。 对 于 
二 次 规划 问题 的 存储 需求 随 着 训练 样本 的 大 小 平方 地 增长 。 从 而 对 现实 生活 中 可 能 涉及 几 千 
个 数据 点 的 应 用 问题 ， 直 接 利 用 商用 最 优化 库 不 能 求解 二 次 规划 问题 。Osuna i al.(1997) 已 
经 发 展 了 一 种 新 的 分 解 算法 ， 通 过 求解 一 系列 更 小 的 子 问题 取得 最 优 解 。 特 别 地 ， 分 解 算法 
利用 支持 向 量 的 系数 仅 在 由 w =0 或 % = 5 定义 的 边界 的 一 边 起 作用 的 这 个 特点 。 在 那里 报 























告 了 分 解 算法 能 够 对 具有 100 000 个 数据 的 应 上 











给 出 满意 的 结果 。 


至 于 运行 时 间 ， 当 前 支持 向 量 机 在 类 似 的 泛 化 性 能 上 上 比 其 他 神经 网 络 (例如 用 反 向 传播 
算法 训练 的 多 层 感 知 器 ) 盆 。 有 两 个 原因 导致 这 样 慢 的 行为 : 

1. 对 于 由 学 习 算 法 挑选 的 用 作 支 持 向 量 的 数据 点 总 数目 没有 控制 。 

2, 没有 预先 将 任务 的 先 验 知识 合并 到 学 习 机 器 的 设计 中 。 
现在 简要 讨论 为 了 克服 这 些 缺 点 而 对 支持 向 量 机 进行 的 修改 。 

怎样 控制 支持 向 量 的 选择 是 一 个 困难 的 问题 ， 特 别 是 在 待 分 类 的 模式 为 不 可 分 的 且 训 练 
数据 有 噪声 时 。 一 般 地 ， 试 图 在 训练 前 从 数据 中 消除 已 知 误差 或 在 训练 之 后 从 展开 中 消除 它 
们 ， 将 给 出 不 同 最 优 超 平面 ， 这 是 办 为 惩罚 不 可 分 性 需要 误差 。 在 Oeuna and Ginosi(1998) 的 
文章 中 ， 研 究 了 减少 用 于 模式 识别 的 支持 向 量 机 的 训练 时 间 。 处 理 这 个 问题 的 两 个 新 方法 描 















































述 如 下 : 
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。 支持 向 量 机 用 作 非 线性 回归 的 工具 ， 以 用 户 给 定 精 虚 逼近 决策 面 (分 离 不 同类 )。 
* 重新 调整 训练 支持 向 量 机 的 过 程 ， 利 用 更 小 数目 的 基 函 数 产 生 同 样 精确 的 决策 面 。 
在 第 一 种 方法 中 ， 利 用 基 函 数 的 ~- 个 子 集 的 线性 组 合 通 近 解 ， 得 到 的 机 器 是 用 于 冰 数 通 “[ 琶 ] 
近 的 支持 向 量 机 的 和 然 推广 。 设计 这 个 推广 的 日 怀 是 寻 我 下 列 形式 的 代价 泛 冰 的 最 小 值 ; 
吕 ( 有 ) = 1 四- 下 (xx) 1 + 
其 中 P(') 是 通 近 后 数 ， 更 (- ) 是 光 消 度 涝 冰 ， 1xz 上 1 为 e- 不 敏感 代价 函数 ， 定 义 为 
1 = 了 若 1x1<s 
xie 否则 
s -不 敏感 代价 函数 具有 使 解 对 奇异 点 是 鲁 棒 的 且 对 小 于 阔 值 s 的 误差 不 敏感 的 作用 。 代 价 
泛 虽 (六 ) 的 最 小 值 共 有 











严 (X) = 袜 scoox) 


=] 
的 形式 ， 其 中 核 C(' ，) 依 赖 于 光滑 度 泛 本 亚 (… ) 的 特殊 选择 ， 并 且 通 过 求解 一 个 二 次 规划 问 
题 计算 系数 =; 。 解 一 般 是 夭 欧 的; 那 就 是 ， 只 有 少数 。 不 为 零 ， 非 零 的 数 日 由 参数 。 控制。 
在 第 二 种 方法 中 ， 原 问题 被 重新 表示 为 和 最 初 的 项 问题 有 相同 的 初始 结构 ， 但 有 一 个 区 别 ， 
内 积 核 K(x,x ) 结 合 进 新 的 表示 中 。 这 两 种 方法 也 适用 于 减少 非 线性 回归 的 支持 向 基 机 的 复 
杂 性 。 

最 后 ， 转 到 先 验 知识 的 问题 ， 人 们 广泛 认识 到 在 机 器 设计 中 通过 结合 任务 的 先 验 知识 可 
以 提高 学 习 机 器 的 性 能 (Apu-Mostafa,1995)。 一 般 地 ， 在 文献 中 已 经 研究 两 种 不 同 的 利用 先 
验 知识 的 方法 : 

” 在 代价 函数 中 包含 一 个 附加 项 ， 从 而 强 追 学 习 机 器 构造 一 个 加 和 人 先 验 知识 的 函数 。 

这 正 是 利用 正则 化 所 做 的 事情 。 
* 从 已 给 训练 样本 中 产生 虚拟 样本 。 这 里 的 动机 是 学 习 机 器 从 人 工 扩 大 的 训练 集 数 据 
中 更 容易 抽取 先 验 知识 。 

在 第 二 种 处 理 方法 中 ， 由 于 人 工 数据 的 相关 性 和 训练 数据 集 的 增 大 ,学 习 过 程 可 能 变 
慢 。 但 是 第 二 种 方法 比 第 一 种 方法 有 一 个 优点 ， 那 就 是 对 于 所 有 的 先 验 知识 和 学 习 机 器 ， 它 
很 容易 被 实现 。 第 二 种 方法 的 实现 方式 可 进行 如 下 (Sehalkopf et al. ,1996): 

1. 按 通 常 方法 对 给 定数 据 训练 支 持 向 基 机 ， 抽 取 一 组 支持 向 最。 ET 

2. 对 第 1 步 获 得 的 支持 向 量 ， 通 过 以 期 望 的 不 变性 变换 形式 应 用 先 验 知识 ， 生 成 称 为 
虚拟 支持 向 量 的 人 了 丁 样本 。 

3. 对 人 工 增 大 的 样本 集训 练 另 一 个 支持 向 量 机 。 

这 个 方法 具有 以 适度 的 时 间 代 价 获 得 分 类 精度 显著 增加 的 优点 : 它 需要 两 轮训 练 而 不 是 
一 轮训 练 ， 但 它 利用 更 多 的 支持 向 量 构造 分 类 规则 。 


注释 和 参考 文献 


[1 令 % 为 民 " 的 一 个 子 集 ， 子 集 @ 说 是 凸 的 ， 如 果 
odt + (1 -coDy 乓 辐 对 所 有 {x,y) 所 的 和 we [0,1] 
函数 A: 一 鲍 说 是 凸 函 数 ， 如 果 
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开 6 章 





ax +(1-oy) serx)+ 


[2] 以 计算 复杂 性 作为 感 兴趣 的 问题 ， 


《1 一 ay), 对 所 有 (z,y)E 和 wxE [0,1] 
我 们 可 以 确认 算法 的 两 种 类 型 ; 


。 多 项 式 时 间 蓝 法 ， 它 要 求 的 适 行 时 间 是 问题 大 小 的 多 项 式 函 数 。 钢 如 ， 通 常用 于 谱 
分 析 的 快速 Fourier 安 换 (FET) 算 法 ， 是 多 项 式 时 间 算法 ， 它 需要 运行 时 间 为 nlogn， 


其 中 ”为 问题 的 大 小 。 


，。 指数 时 间 算 法 ， 它 要 求 运行 时 间 是 问题 大 小 的 指数 吨 数 。 例 如 ,一 个 指数 时 间 算 法 
可 能 花费 时 间 2" ， 其 中 n 为 问题 大 小 的 度量 。 
基于 此 ， 我 们 可 以 将 多 项 式 时 间 算 法 看 作 * 有 效 " 算 法 ， 而 指数 时 间 算法 看 作 * 无 


效 "算法 。 


对 实际 中 出 现 的 许多 起 计算 问题 ， 迄 今 为 止 仍 没有 设计 出 有 效 算法 。 如 果 不 是 计 
有 的 至 少 也 是 许多 这 些 看 起 难 解 的 问题 属于 称 为 NP 完全 问题 的 一 类 问题 。 术 语 “NP” 
代表 "“ 非 确定 多 项 式 ”( Nondeterministie Polynomial) 。 

关于 NP 完全 问题 的 更 详细 讨论 可 参看 Cook (1971) ，GCarey and Johnson(1979) 和 





Cormen et 中. (1990) 。 





[3] 在 Aizemman et al,(1964a.19G4b) 中 首次 利用 内 积 核 的 思想 构造 势 丽 数 方法 的 公式 ， 势 函数 
代表 径 向 基 函 数 网 络 的 前 身 。 几 乎 在 同一 时 间 ，Vapnik and Chervonenkis(1965) 发 展 最 优 超 





平面 的 思想 。 构 成 支持 向 量 机 的 这 两 个 有 力 概念 的 组合 使 用 是 Vapnik 及 合作 者 1992 年 提 





倡 的 ; 参看 Hoser，Guyon and Vapnik(1992) 以 及 Cores and Vapnik(1995)。 支 持 向 量 机 的 完 


全 数学 描述 首先 在 Yapnik(1995) 中 给 出 ， 随 后 在 Vapnik(1998) 中 以 扩展 形式 给 出 。 














[4] Huber 的 最 小 最 大 化 理论 的 基础 是 邻 域 ， 这 些 邻 域 由 于 不 包含 非 对 称 分 布 ， 因 此 不 是 全 
局 的 。 但 是 ， 这 个 理论 成 功 解决 了 一 大 部 分 传统 的 统计 学 问题 ， 特 别 的 是 回归 问题 。 
[5] 在 Sehumars(1997) 中 ， 利 用 线性 规划 探讨 使 用 亏 范 数 | w | 目 ， 替 代 在 支持 向 莉 机 中 使 














用 的 瑟 泛 数 ‖ w1:。 权 值 向 量 w 的 无 范 数 定义 为 


其 中 ze 是 的 第 ;个 元 素 ， 利 用 疡 范 获 的 最 大 分 类 边界 看 上 去 偏向 超 平面 虹 标 用 的 














1wl=1ml 





方向 ， 也 就 是 偏向 权 值 向 量具 有 很 少 非 零 元 素 的 方向 。 
[6] 二 次 规划 的 商用 库 包括 下 列 的 软件 : 
*。 MIHNOS5.4:(Murtagh and Saunders,1978) 





*。 LSSOL(Gill et al. ,1986) 
。 LOQOCVandertei ,1994) 


*。 QPOPT and SQOPT(Gill and Murray ,1991) 


习题 
最 优 分 离 超 平面 
6.1 考虑 用 于 线性 可 分 模式 的 超 了 








下面， 它 由 方程 


wx+b=0 


定义 为 ， 其 中 w 表 示 权 值 向 量 ，2 为 偏 置 ，x 为 输 和 向量。 如 果 输 人 模式 集 {x; | 局) 满足 附加 


的 条 件 
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min | wzx +1=1 
则 称 越 平面 对 应 于 标准 对 (canonical pair)(w,8)。 证 明 标 准 对 的 这 个 要 求 导致 两 类 分 离 边界 
之 间 的 距离 为 2 | w|| 。 
6.2 在 不 可 分 类 模式 的 背景 下 判断 下 列 陈述 : 错 分 类 意味 着 模式 的 不 可 分 性 ， 但 相反 
则 木 必 真 。 
6.3 ”以 不 可 分 模式 的 分 讽 超 平面 的 最 优化 作为 原 问题 的 开始 ,构造 如 6.3 节 描述 的 
倘 问 题 的 公式 。 
6.4 在 本 题 中 ， 利 用 在 第 4 章 讨论 的 “ 留 一 法 "估计 不 可 分 模式 的 最 优 超 平 面 产 生 的 期 
肩 测 试 误差 。 通 过 删除 训练 样本 中 任意 一 个 模式 并 且 根 据 剩 下 的 模式 构造 一 个 解 ， 讨 论 使 
这 种 方法 可 以 引发 的 各 种 可 能 性 。 
6.5 数据 空间 中 最 优 超 平面 的 位 置 由 被 选 为 支持 向 量 的 数据 点 决定 。 如 果 数 据 有 噪声， 
人 们 的 第 一 反应 也 许 是 质疑 分 离 边 界 对 噪声 的 睛 央 性 。 但 对 最 优 超 平面 的 详细 研究 揭示 分 离 
边界 对 噪声 实际 上 是 鲁 棒 的 。 讨 论 这 种 鲁 棒 性 的 根据 。 
内 积 核 
6.6 内 积 核 K(xi ,zi ) 是 在 训练 A 个 样本 集 g9 上 计算 的 ， 它 产生 六 x 六 矩阵 
政 = | 友信- 
其 中 矶 = 天 (xi)。 由 于 它 的 所 有 元 素 的 值 为 正 ， 和 矩阵 玉 是 平 的 。 利 用 相似 变换 
K = QAQ7 
其 中 入 为 特征 对 角 算 阵 ， 而 @ 为 相应 特征 向 量 构成 的 符 阵 ， 通 过 政 的 特征 值 和 特征 向 量 构 
造 内 积 核 Kxi 5) 的 表达 式 。 你 可 以 从 这 个 表达 式 得 出 什么 结论 ? 
6.7 (a) 证 明 内 积 核 玉 (x,xi) 的 本 不 变性 ， 即 
大 (xx ) = KCQxyQx) 
其 中 Q 为 西 矩 阵 定义 为 Q =Q 
(b) 证 明 表 6-1 中 描述 的 内 积 核 满足 这 个 性 质 。 
6.8 两 层 感知 器 的 内 积 核定 义 为 
站 (GE ) = tanh(Roxxs +B) 
探 装 对 常数 色 和 和 的 某 些 值 不 满足 Mercer 定理 。 
模式 分 类 
6.9 用 于 求解 XOR 问题 的 多 项 式 学 习 机 使 用 的 内 积 核定 义 为 
天 (X 和 )》 = 《] + XTX)2 
解 XOR 问题 的 指数 p 的 最 小 值 是 多 少 ? 假定 p 为 正 整数 。 使 用 比 最 小 值 大 的 值 会 出 现 什 
么 结果 ? 
6.10 图 6-9 表 示 三 维 模式 x 上 送 算 的 XOR 函数 ， 描 述 为 
XOR(e zz) = 科 图 只 图 四 
其 中 符 导 四 表示 异 或 布尔 函数 运算 符 。 设 计 一 个 多 项 式 学 习 机 ， 分 离 由 这 个 运算 符 输出 所 表 


示 的 两 类 点 。 
5.11 在 整个 这 一 章 中 我 们 讨论 利用 支持 向 量 机 进行 二 分 类 。 讨 论 支持 向 量 机 如 何 解决 
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型 类 复式 分 类 的 问题 (W > 2)。 
非 线性 癌 归 
6.12 在 5.8 节 描 述 的 利用 支持 向 量 机 求解 非 线性 回归 问题 的 对 偶 问题 ， 包 括 约 束 条 件 


(ae -ww)=0 

其 中 m 和 0, 为 Lagrange 乘 子 。 证 明 这 个 约束 条 件 从 对 人 岛 置 》 最 小 化 Lagrange 两 数 而 得 到 ， 
即 对 应 于 4(x) = ! 的 权 值 向 基 w 的 第 一 个 元 素 zu 
优点 和 局 限 

6.13 〈a) 就 下 列 和 任务 比较 支持 向 量 机 和 径 向 基 困 数 (RBF) 网 络 的 优点 和 局 限 : (1) 模 式 
分 类 ，(2) 非 线性 回归 。 

人) 对 于 支持 向 量 机 和 利用 反 向 传播 算法 训练 的 多 层 感知 器 作 同样 比较 。 
计算 机 试验 




















6.14 图 6-10 表示 两 个 类 6,， 和 4, 的 一 组 数据 点 。 两 个 坐标 轴 x*, 和 的 范围 都 为 -1 
到 + 1。 利 用 径 向 基因 数 核 
天 (Xt) = exp(- | x ~ 上 上 |》 
对 这 个 数据 集 构造 最 优 超 平面 。 
+T 
时 二 





如 














图 6-9 图 6-10 


6.15 在 6.6 节 描述 的 计算 机 实验 是 为 了 对 两 类 部 分 重 克 的 Gauss 分 布 进行 分 类 。 用 于 
这 个 实验 的 正则 化 参数 是 C = 0, 1。 用 于 构造 内 积 核 机 数 的 径 向 基 郴 数 的 共有 宽度 为 只 = 4。 
对 于 以 下 的 两 个 正则 化 参数 重复 那 一 节 中 提 到 的 计算 机 实验 ，(ajC =0.05，(b)C =0.2。 根 
据 6.6 节 报告 的 结果 评论 你 的 结果 。 

6.16 在 用 径 向 基 函 数 网 络 求解 非 线 性 回归 问题 时 ， 经 常 发 现 用 多 二 次 因 数 之 类 的 非 局 
部 林 函 数 比 用 Canss 函数 之 类 的 局 部 基 函 数 导 致 更 高 精度 解 。 对 支持 向 量 机 可 能 猜想 会 出 现 
类 似 的 结果 ， 因 为 利用 (无 界 ) 多 项 式 学 习 机 可 证 明 比 (有 界 ) 径 向 基 画 数 机 器 有 更 高 精度 。 对 
模式 分 类 问题 用 计算 机 实验 探讨 这 个 推测 的 正确 性 。 












































第 7 章 ， 委员会 机 器 


7.1 简介 


在 前 面 三 章 ， 我 们 描述 三 种 不 同 的 监督 学 习 方法 。 在 第 4 章 ， 讨 论 由 反方 向 传播 算法 训 
练 的 MLP， 其 设计 依靠 全 局 优化 方式 .在 第 5 章 ， 讨 论 RBF 网 络 ， 其 设计 依靠 局 部 优化 方 
式 。 在 第 6 章 ， 讨 论 支持 向 量 机 ， 其 设计 利用 YC 维 数理 论 。 在 本 章 我 们 将 要 提出 另外 一 类 
解决 监督 学 习 任务 的 方法 。 这 里 使 用 的 方法 基于 一 个 通常 的 工程 原则 ; 分 而 治之 。 

根据 分 而 党 之 的 原则 (prineiple of divide and conquer) ， 一 个 复杂 的 计算 任务 被 分 解 成 一 些 
简单 的 计算 任务 ， 然 后 主将 这 些 任 务 的 解 重 新 组 合 起 来 。 在 监督 学 习 中 ， 我 们 将 学 习 任 务 分 
配给 一 些 专家 以 求 得 计算 的 简单 化 ， 这 样 就 将 输 人 空间 划分 成 一 组 子 空间 。 这 些 专家 的 组 合 
就 形成 了 委员 会 机 器 (commitiee machine)。 从 基本 上 说 ， 它 融合 各 专家 所 获得 的 知识 使 该 机 
器 能 作出 全 局 决策 ， 可 以 设想 这 种 决策 优 于 任何 一 个 专家 单独 作出 的 决策 。 这 种 "委员 会 机 
器 ”的 思想 可 以 追溯 到 Nilsson(1965); 那里 考虑 的 网 络 结构 是 由 一 个 基本 的 感知 元 层 后 面 跟 
着 在 第 二 层 的 一 个 投票 感知 器 组 成 的 。 

委员 会 机 器 是 通用 各 近 器 。 它 们 可 以 被 分 成 两 大 类 ， 

1, 静态 结 多 。 在 这 种 委员 会 机 器 中 ， 组 合 儿 个 预报 器 (专家 ) 响 应 的 机 制 和 输入 信和 号 无 
关 ， 因 此 这 种 设计 是 “静态 "的 。 这 一 类 包括 以 下 的 方法 ， 

，。 总 体 平均 ， 其 中 将 不 同 的 预报 器 输出 进行 线形 组 合 ， 产 生 整 体 输出 。 

。 推举 (boosting) 方 法 ， 其 中 兰 学 习 算 法 被 转化 为 一 个 能 达到 任意 沿 精 傅 度 的 算法 。 

2. 动态 结构 。 在 这 第 二 种 委员 会 机 器 中 ， 将 各 单个 专家 输出 组 合成 整体 输出 的 机 制 直 
接 和 输 人 倍 号 相关 ， 因 此 和 名 为 “动态 "。 这 里 ， 我 们 将 提 到 两 种 动态 结构 类 : 

。 泥 合 专家 ， 所 有 专家 的 单独 响应 通过 单个 门 网 非 线性 地 组 合 ; 

。 分 层 混合 专家 ， 所 有 专家 的 单独 响应 通过 客 个 门 网 层次 式 地 非 线性 组 合 。 

在 混合 专家 中 ， 分 而 治之 的 原则 只 被 应 用 一 次 ; 而 在 分 层 混 合 专家 中 ， 分 而 治之 的 原则 
被 应 用 多 次 ， 因 而 产生 要 应 数量 的 层次 。 

混合 专家 网 络 和 分 层 泥 合 专家 网 络 也 可 以 被 看 作 组合 网 络 (modular netwo 本 ) 的 例子 。 组 
合 性 的 (modularity) 概 念 的 正式 定义 必 (Osherson et al,,1990 ); 

一 全 神经 网 络 ， 只 要 它 所 进行 的 运算 能 分 解 厂 两 个 或 者 多 个 组 件 (module)( 子 系统 )， 各 
个 组 件 有 独立 的 输入 变量 ， 且 相互 之 间 没 有 通信 ， 则 称 该 神经 网 络 是 组 会 化 的 。 各 个 组 件 的 
输出 被 一 个 整合 单元 调节 ， 不 允许 向 各 个 组 件 反馈 信息 。 特 别 地 ， 整 合 单元 完成 两 项 任务 ， 
(1) 决 宠 各 个 组 件 的 输出 怎样 被 整合 ， 有 形成 整个 网 络 的 最 终 输 出 ，(2) 决 定 哪 些 组 件 应 学 习 哪 
些 训 练 模式 。 

这 种 组 合 性 定义 排除 静态 结构 的 委员 会 机 器 ， 内 为 它 在 输出 端 不 存在 具有 决策 作用 的 整合 单 


元 。 
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本 千 的 组 织 


本 章 分 为 两 个 部 分 。 第 一 部 分 为 静态 结构 类 ,包括 7.2 节 至 7.5 节 。7.2 节 讨 论 总 体 平 
均 的 方法 ， 其 后 了 .3 节 是 计算 机 实验 。7.4 竹 讨论 推举 技术 ， 其 后 7.5 节 是 计算 机 实验 。 

本 章 第 二 部 分 为 动态 结构 类 ， 包 括 7.6 节 至 7.13 他。 具体 地 ，7.6 节 讨 论 混合 专家 
《ME) 作 为 联想 Ganss 混合 模型 。7.7 节 讨 论 更 一 般 的 情况 ， 即 分 层 混 合 专家 (HME)。 这 后 一 
模型 和 标准 决策 树 紧密 相关 。 然 后 7,8 节 描述 怎样 对 分 层 混合 专家 运用 标准 决策 树 求解 HME 
的 模型 选择 问题 ( 即 门 网 和 专家 网 络 的 数目 )。 在 7.9 节 我 们 定义 后 验 概 率 ， 帮 助 我 们 对 用 于 
HME 模型 的 学 习 方法 建立 公式 。 在 7.10 节 通 过 对 HME 模型 形成 似 然 函 数 为 解决 参数 估计 问 
题 葛 定 基础 。7.11 节 给 出 学 习 策 噬 的 概览 。 随 后 在 7.12 节 对 EM 算法 进行 详细 讨论 ,在 
7.13 节 把 这 种 算法 占用 手 HME 模型 。 

在 7.14 节 以 最 后 评论 结束 本 章 。 


7.2 总 体 平 均 


7 显示 了 各 种 训练 好 的 神经 网 络 ( 即 专家 )， 它 们 有 一 个 共同 的 输入 ， 然 后 将 它们 各 
自 的 输出 整合 成 一 个 总 的 输出 y。 为 简化 说 明 ， 这 些 专 家 的 输出 假定 为 标量 值 。 这 种 技术 被 
称 作 总 体 平均 方法 上 上 。 使 用 这 种 方法 有 双重 动机 ， 
” 假如 图 7-1 中 专家 的 整合 用 单个 神经 网 络 蔡 代 ， 我 们 将 得 到 一 个 相对 多 的 可 调 参数 
的 网 络 。 对 这 个 一 个 大 的 网 络 进行 训练 的 时 间 可 能 比 并 行 训练 一 组 专家 的 时 间 长 。 
” 当 可 调 参数 数目 比 训 练 数据 集 的 基数 ( 即 集 合 的 大 小 ) 大 时 ， 过 拟 合 (overfitting) 数 据 
的 风险 也 随 之 增 大 。 
无 论 如 何 ， 在 使 用 如 图 7-1 描述 的 委员 会 机 器 时 ， 我 们 期 望 分 别 训练 的 专家 收敛 到 误 差 曲 面 
的 不 同 的 局 部 极 小 ， 但 整个 系统 件 能 通过 将 多 个 输出 进行 某 种 组 合 而 得 到 提高 。 


加 (9 
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图 7-1 基于 总 体 平均 的 委员 会 机 器 的 框图 
首先 考虑 对 给 定数 据 集合 训练 后 的 一 个 单独 神经 网 络 的 情形 。 让 x 代 表 一 个 从 来 没有 训 
练 过 的 输 和 向量， 让 4 代表 一 个 相应 期 望 输出 (代表 一 个 类 的 标号 或 者 数值 的 响应 ); x 和 上 
分 别 代表 随机 向 量 X 和 随机 变量 六 的 实现 。 令 严 ( 切 代表 网 络 所 实现 的 输入 -输出 殉 数 。 根 
据 第 2 章 提 到 的 “ 偏 置 /方差 "困境 的 知识 ， 我 们 可 以 把 R(x) 和 条 件 期 望 B[ 了 1IX= xz] 的 均 方 


误差 分 解 成 偏 置 和 方差 分 量 如 下 : 
开 @ [CCE) 一 互 [六 1=x)] = Bg(RX)) + To(CPCD) 《7.8 




















其 中 8 (5(x)) 是 仿 普 的 平方 : 
Ba)) = (ETFCOD]T- 瑟 友 1X= 台 六 (7.2) 
而 殉 (R(x)) 是 方 益 : 
网 (PCD) = PTCPC) - 有 [FOOD (7.3) 
期 望 外 对 空间 9 皮 期 望 ，S 被 定义 为 包括 所 有 的 训练 集 ( 即 输入 和 目 祭 输出 ) 的 分 布 和 所 有 的 
初始 条 件 分 布 的 空间 。 

有 多 种 单独 训练 图 7-1 中 专家 的 方法 。 也 有 多 种 合并 其 输出 的 方法 。 在 这 里 的 讨论 中 ， 
我 们 考虑 所 有 的 专家 网 络 有 相同 的 构 形 (结构 ) 的 情况 ， 但 它们 旦 从 不 同 的 初始 条 件 并 始 训练 
的 。 在 图 7-1 所 示 的 委员 会 机 器 输出 的 组合 器 中 ， 仅 用 简单 的 总 体 平均 器 (ensemble 
averager)P 1 。 令 9 代表 所 有 初始 条 件 的 空间 。 令 玉 ( 妇 代表 图 7-1 中 专家 网 络 的 输入 - 输出 函 
数 企 一 系列 "有 代表 性 "的 初始 条 件 下 的 平均 。 和 式 (7.1) 类 似 ， 可 以 写 出 




















sg[(P(X) -已 [六 IX= zx) = BoCPFOx)) + FOX)) (7.4) 
其 中 8Bg (F(x)) 是 定义 在 空间 g 的 偏 置 的 平方 ; 
Beg(EF(OOD) = (Boz[(x)] - 妇 [ 万 1 和 = xj (7.5) 
而 Wo(F(x)) 是 方差 
VC)) = 2e[GmE) - 29zLP(]7 (7.6) 
期 望 gp 是 对 空间 # 取 期 望 。 


从 空间 8 的 定义 ， 我 们 可 以 将 它 看 作 初 始 条 件 所 在 的 空间 ?9 和 表示 为 @ 的 剩余 室 间 
《remnant spaee) 的 乘积 。 因 此 ， 再 次 通过 与 式 (7.6) 相 似 性 ， 可 以 写 出 


























有 [CR 有一 下 及 1 及 = 有] 六 ] = B8( 丙 ( 允 ) + 了 (0O90) (7.7) 
其 中 8 (六 (9) 是 定义 在 剩余 空间 9' 上 的 偏 填 平方 : 
eg ( 厅 (0)) = (2 [ 及 (要 ] -玉生 = xx 六 (7.8) 
而 殉 ,( 品 (xz)) 是 相应 的 方差 : 
殉 (及 () = Be [(P() - 本 [有 (全 ] 《7.9) 
从 空间 2，9 和 8 的 定义 容易 看 出 
52 [机 (Co)] = Egg[FCX)] (7.10) 
因此 随 之 可 将 式 (7.8) 重 写 为 下 列 等 价 形式 : 
Bo:((x)) = ( 权 [F(N] -下 感 | 人 = 大 = Bo(POOD) (7.11) 
接 下 来 考虑 式 (7.9) 中 的 方差 网.( 太 ()。 由 于 随机 变量 的 方差 等 于 随机 变量 的 均 方 值 减 去 
它 的 偏 置 的 平方 ， 可 以 等 价 写 为 
陷 (RN)》 = 有 [站 ( 关 ] - (有 [ 记 ( 可 了 = Bo[( 亲 ( 史 ] - 《ELR(S)]) 


(7.12) 





其 中 在 第 二 个 等 式 利用 了 式 (7.10)， 类 似 地 我 们 可 以 以 等 价 的 形式 重新 定义 式 (7.3): 
了 (OO) = BEa[(PCOOD7] - (Be[E(x)] (7.13》 


注意 函数 F(x) 在 整个 空间 8 上 的 均 方 值 一 定 大 于 或 者 等 于 整体 均 方 函数 记 (x) 在 剩余 空间 gf 
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上 的 均 方 值 ， 即 
ECFGOO] > 艳 区 有 (六 
根据 这 个 不 等 式 ， 比 较 式 (7.13) 和 (7.12)， 立 即 可 以 得 到 
TCD) 大 CR)) (7.14) 

根据 式 (7.10) 和 (7.94)， 我 们 可 以 作出 下 面 的 两 个 结论 : 

1. 电 于 如 图 7-1 的 委员 会 机 器 的 总 体 平均 函数 局 (z) 的 篇 置 正好 和 属于 一 个 单个 坤 经 网 
络 的 函数 F(x) 的 入 轩 相 同 。 

2. 总 体 平均 明 数 屎 (x) 的 方差 小 于 函数 (zx) 的 方差 。 

这 些 理论 发 现 指出 一 个 用 于 减少 委员 会 机 器 产生 的 总 误差 的 训练 策略 中 由 不 同 的 初始 条 
件 得 到 的 ( Naftaly et al, ,1997)。 机 器 的 专家 成 员 被 故意 过 度 训 练 ， 使 用 它 的 理由 屁 基 于 下 面 
的 基础 。 只 要 考虑 单个 专家 ， 偏 置 的 减少 就 足以 方 益 为 代价 的 。 但 是 ， 此 后 通过 对 初始 条 任 
总体 平均 专家 ， 方 益 减 少 了 而 偏 兽 保留 不 变 。 


7.3 计算 机 实验 工 
在 关于 总 体 平均 方 汰 的 计算 机 实验 中 ， 我 们 重新 回 到 前 面 二 章 考虑 的 模式 分 类 问题 。 问 
题 属于 两 个 有 重 酸 的 二 维 Canss 分 布 的 分 类 问题 。 这 两 个 分 布 有 着 不 同 的 蜀 值 向 量 和 不 同 的 
方 益 。 分 布 1( 类 @) ) 的 统计 特性 为 
由 = 00 =1 




















分 布 2 类 ) 的 统计 特性 为 
用 = [2,0]7,G = 4 
两 个 分 布 的 散 列 图 在 图 4-13 给 出 。 

这 两 类 被 假定 为 等 糯 率 的 。 错 误 分 类 的 代价 假定 树 同 ， 正 确 分 类 的 代价 假定 为 0。 在 此 “ 
基础 上 ,( 最 优 ) 贝 叶 斯 分 类 器 有 产 = 81.51 多 的 正确 分 类 率 。 这 个 计算 的 细节 已 经 在 第 4 章 
给 出 ， 

在 第 4 章 描述 的 计算 机 实验 中 ， 应 用 有 两 个 隐藏 神经 元 的 多 层 感 知 器 和 使 用 反 向 传播 算 
法 训练 ,我们 能 得 到 将 近 8996 的 正确 分 类 率 。 在 这 个 实验 中 ， 我 们 将 学 习 一 个 如 下 组 成 的 
委员 会 机 器 : 

*。， 10 个 专家 。 

， 每 个 专家 由 一 个 具有 两 个 隐藏 单 元 的 多 层 感 知 硕 组 成 。 

所 有 的 专家 都 应 用 反 向 传播 算法 进行 单独 训练 。 算 法 中 使 用 的 参数 是 学 习 率 参数 = 0.1， 
动量 常数 xc=0.5。 
训练 样本 的 大 小 是 500 个 模式 。 所 有 的 专家 在 同一 个 数据 集 上 训练 ， 只 不 过 它们 的 初始 条 件 
不 同 。 特 别 地 ， 初 始 权 值 和 疯 值 是 随机 地 从 区 间 [ - 1,H] 按 均匀 分 布 随机 挑选 的 。 

表 ?3-1 汇 总 10 个 专家 通过 使 用 测试 集 的 500 个 借 式 训练 后 的 分 类 性 能 。 仅 靠 简单 地 提 
取 表 7-1 中 10 个 结果 后 算术 平均 而 得 到 的 正确 分 类 率 为 记 。 = 79.37 色 。 另 一 方面 ， 应 用 总 
体 平 均 方 法 ， 即 简单 地 将 各 个 专家 的 输出 相 加 后 计算 正确 分 类 率 ， 我 们 得 到 结果 ，Pse。 = 
80.27% 。 这 个 结果 比 .提高 了 0.9 个 百分点 。 这 种 改进 对 所 有 的 实验 来 说 都 是 存在 的 。 
分 类 结果 是 应 用 32 000 个 测试 模式 计算 出 来 的 。 
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总 结 这 个 实验 的 结果 ， 我 们 可 以 说 : 道 过 过 度 训练 单个 多 层 感知 器 (专家 )， 将 它们 各 自 
的 数值 输出 相 加 产生 委员 会 机 器 的 总 输出 ， 然 后 作出 决策 ， 由 此 提高 分 类 性 能 。 
表 7-1 在 委员 会 机 器 中 使 用 的 单个 专家 的 分 类 性 能 








专家 正确 分 类 的 百分数 
本 Set 可 .全 

See 6.91 

Neg 80.06 

Netd 80.47 

Ne 80.44 

Netg 6.89 

Ne 80.55 

el8 80.47 

Ne9 76.91 


Netlo 


80.38 





7.4 推举 





如 同 在 介绍 中 提 到 的 那 伴 ， 推 举 是 属于 静态 结构 的 委员 会 机 器 的 另 一 种 方法 。 推 举 和 





总 体 平均 有 很 大 的 不 同 。 在 基于 





集 上 训练 ， 在 训练 的 过 程 中 ， 它 
机 器 中 的 专家 各 自 的 训练 集 是 完全 不 同 


个 通用 方法 。 
推举 5(boosting) 能 用 二 利 
1. 通过 过 滤 推 举 。 这 种 方法 
定 有 大 量 ( 理 论 上 无 穷 ) 样 本 可 用 
法 比 另 多 





总 体 平均 的 一 个 委员 会 机 器 








基本 不 同 的 方法 实现 ， 
及 到 用 一 个 弱 学 习 算 法 的 不 同 版 本 过 滤 训 练 样本 。 它 假 
， 这 些 样本 在 训练 过 程 中 有 些 被 地 齐 ， 有 些 被 保留 。 这 个 方 
两 种 方法 的 一 个 优越 之 处 在 于 它 其 有 和 较 小 的 存储 需求 。 


涉 


P， 所 有 的 专家 在 一 个 数据 


站 是 由 于 初始 条 件 不 同 而 导致 不 同 的 。 与 此 相反 ， 推 举 
的 分 布 ; 它 是 能 被 用 来 提高 任何 学 习 算 法 性 能 的 一 


2, 通过 子 抽样 推举 。 第 二 种 方法 用 到 一 个 固定 大 小 的 训练 样本 和 集合。 训练 过 程 中 这 些 





样本 根据 一 个 给 定 概率 分 布 “重新 





3, 通过 重新 加 权 推 蔡 。 第 二 
学 习 算 法 能 接收 “加 权 " 后 的 样本 











利 
。 根据 加 权 后 的 样本 计算 误差 。 


样 “。 根 据 固定 的 训练 样本 计算 误差。 
方法 也 用 到 一 个 周 定 大 小 的 训练 翌 梧 集合， 但 它 假 定 表 


在 这 一 节 将 描述 两 种 不 同 的 推举 算法 。 其 中 之 一 归功 于 Schapire(1990) ， 属 于 方法 1; 另外 的 
一 种 称 为 自 举 (AdaBoost) ， 归 功 于 Freund und Schapire( 1996a, 1996b) ， 属 于 方法 2。 


带 过 过 滤 推 举 


在 Schapire( 1990) 描 述 的 推举 ， 














基本 思想 植 根 于 一 个 与 分 布 无 关 的 或 可 能 近似 正确 


的 (probably approximately correct, PAC ) 学 习 模 型 。 通 过 在 第 二 章 讨 论 过 的 PAC 学 习 ， 我 们 知 
道 一 个 概念 (concepb) 只 是 某 范例 (instance) 域 内 的 一 个 布尔 函数 ， 该 范例 域 包括 我 们 感 兴趣 
的 所 有 对 象 (object) 的 编码 。 在 PAC 学 习 中 ， 一 个 学 习 机 器 通过 随机 选择 概念 的 样本 的 基 
础 上 ， 去 确认 一 个 未 知 的 二 值 概念 。 更 进一步 地 说 ， 学 习 机 器 的 目标 是 找到 一 个 错误 率 


最 多 为 s 的 假说 或 者 预测 规则 ，， 





e 为 任意 小 的 正 数 ， 并 且 它 对 了 








所 有 输入 分 布 都 是 一 致 成 


立 的 。 基 于 此 ，PAC 学 习 模 型 又 称 为 强 学 习 模 型 (stmong jeaming model) 。 因 为 样本 的 随机 性 











质 ， 那 么 极 有 可 能 由 于 一 些 高 度 不 具有 代表 性 的 样本 存在 而 不 能 学 到 有 关 未 知 概念 的 任 
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何 东西 。 因 此 我 们 更 求学 习 模 者 只 在 以 概率 1 - $ 找到 林 知 粕 念 的 良好 近似 后 继续 ， 这 里 
3 是 一 个 小 的 正 数 。 

在 PAC 学 习 模 型 中 ， 有 一 个 变形 称 为 弱 学 习 模 型 (weak leaming model)。 它 对 于 学 习 未 知 
概念 的 要 求 大 大 地 放松 了 。 现 在 学 习 相 器 被 要 求 以 稍微 小 于 1/2 的 误差 率 去 发 现 一 个 假说 。 
当 - ' 个 假说 对 于 每 一 个 例子 以 完全 随机 的 方式 去 猜想 -个 二 值 的 标号 时 ， 它 错误 和 正确 的 概 
率 足 相同 的 。 也 就 是 说 ， 它 得 到 一 个 恰好 1/2 的 误 益 率 。 从 而 ， 随 之 而 来 的 朋 学 习 模 型 实际 
表现 只 比 随机 猜想 仅 略 好 -~ -点 弱 可 学 习 的 概念 是 Kearms and valiant(1989) 引 入 的 ， 他 们 提 
出 了 假说 推举 问题 ， 它 在 下 而 的 问题 中 体现 出 来 , 

弱 学 习 和 强 学 习 二 者 概念 等 价 吗 ? 

换 人 名 话 说， 任何 是 弦 可 学 习 的 慨 念 类 ， 是 舍 也 是 强 可 学 习 的 ? 或 许 是 惊奇 的 ， 这 个 问题 
由 Schapire(1990) 肯 定 地 回答 了 。 其 证 明 是 忆 造 性 的 。 特 别 地 ， 一 个 直接 将 弱 学 习 模 型 转化 
成 强 学 习 模型 的 算法 被 设计 出 来 。 它 的 取得 是 通过 改变 样本 的 分 布 使 得 由 一 个 弱 学 习 模型 建 
立 一 个 强 学 习 模型 。 

在 基于 过 让 的 推举 中 ， 委 员 会 机 器 由 三 个 专家 或 子 假说 组 成 。 用 于 训练 它们 的 算法 称 为 
推举 算法 (boosting algorithm)。 这 三 个 专家 可 随意 标 为 “第 一 "、“ 第 二 ”和 “第 三 "。 这 三 个 专家 
各 自 训练 如 下 : 

1. 第 一 个 专家 在 几 个 样本 上 训练 。 

2. 被 训练 过 的 第 一 个 专家 通过 下 面 的 方式 过 涨 另 外 一 个 样本 集 : 

” 擅 一 枚 研 币 ;这 实际 是 模拟 一 个 随机 猜测 。 

， 假如 结果 是 正面 ， 则 新 模式 通过 第 一 个 专家 ， 并 挑 弃 被 正确 分 类 的 模式 ， 直 到 过 到 

一 个 被 错误 分 类 的 模式 为 止 。 这 个 错误 分 类 模式 被 加 入 到 第 二 个 专家 的 训练 集中 。 

，。 候 如 结果 是 反面 。 所 做 的 恰好 相反 。 特 别 地 ， 将 新 模式 通过 第 一 个 专家 ， 抛 弃 不 能 

被 正确 分 类 的 模式 ， 直 到 遇 到 一 个 能 被 正确 分 类 的 模式 为 止 。 正 确 分 类 的 模式 被 加 
人 到 第 二 个 专家 的 训练 集中 。 

” 继续 这 个 过 程 ， 直 到 N 个 样本 被 第 一 个 专家 过 滤 ， 这 个 过 滤 后 的 样本 组 成 第 二 个 

专家 的 训练 集 。 

依 撕 抛 砚 币 过 程 ，o 吕 以 确保 假如 第 一 个 专家 在 第 二 个 样本 集 上 测试 ， 它 将 有 1/2 的 误差 
率 ， 换 名 话说， 用 来 训练 第 二 个 专家 的 第 二 个 含有 N, 样本 的 集合 和 第 一 个 用 来 训练 第 一 个 
专家 的 N, 样本 的 集合 具有 完全 不 同 的 分 布 。 用 这 种 方法 ， 第 二 个 专家 被 强制 学 习 和 第 一 个 
专家 的 分 布 完全 不 同 的 分 布 。 

3. 一 旦 第 一 个 专家 通过 正常 方式 训练 完毕 ， 供 第 三 个 专家 使 用 的 第 三 个 训练 集 将 通过 
如 下 的 方式 产生 : 

” 将 一 个 新 的 模式 通过 专家 1 和 专家 2。 假 如 这 两 个 专家 的 决策 一 致 ， 则 抛弃 该 模式 ， 

否则 该 模式 被 加 入 到 第 三 个 专家 的 训练 集中 。 

， 继续 这 个 过 程 ， 直 到 Ni 个 太 本 被 第 一 个 专家 和 第 二 个 专家 所 共同 过 滤 。 这 个 被 过 

滤 得 到 的 样本 集 组 成 第 三 个 专家 的 训练 集 。 
这 个 三 步 过 涉 过 程 如 图 7-2 所 示 。 
令 六 代表 一 个 样本 集 的 数目 ， 该 样本 集 必 须 被 第 一 个 专家 过 滤 以 便 得 到 供 第 二 个 专家 
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具有 和 专家 1 

加 个 样本 | 训练 后 的 学 习 的 样本 傈 
专家 1 不 同 的 统计 性 
质 的 N 个 祥 本 











引 专 家 1 完成 的 过 瀣 样本 


AM 个 样本 





























吓 专 家 1 和 专家 2 完成 的 过 滤 样 本 


图 7-2? 通过 过 涯 的 推举 示意 图 





使 用 的 忆 个 样本 训练 集 。 注 意 Ni 是 








,| 训练 后 的 
专家 1 | 
具有 和 专家 ] 和 专家 2 
学 习 章 样本 集 不 同 的 
统计 性 质 的 N, 样 本 
训练 后 的 | 
专 察 2 


固定 的 ，NW 取决 于 第 一 个 专家 的 活化 误差 率 。 令 必 


代表 一 个 样本 集 的 数目 ， 该 样本 集 必须 被 第 一 个 和 第 二 个 专家 所 共同 过 滤 而 得 到 供 第 三 个 专 
家 训练 用 的 N, 样本 集 。 因 为 wW 个 样本 需要 用 来 训练 第 一 个 专家 ， 总 共 需 要 用 来 训练 委员 


会 机 器 的 训练 集 的 大 小 为 ws = Ni + Na + M。 但 计算 的 代价 是 某 于 3Ni 个 样本 ， 


好 是 用 来 分 别 训练 三 个 专家 的 样本 的 数目 。 委 员 会 机 器 需要 一 个 很 大 的 样本 集 供 其 




















为 内 正 
操作 ， 但 





仅仅 是 该 样本 集 的 一 个 子 集 被 用 来 实施 真正 的 训练 ， 从 这 一 点 上 来 说 ， 我 们 可 以 说 这 里 描述 


的 推举 算法 确实 是 “聪明 "的 。 


另 一 点 值得 注意 的 是 ， 通 过 第 一 个 专家 网 络 的 过 滤 操 作 和 通过 第 一 和 第 二 个 专家 联合 的 
过 滤 操 作 ， 使 得 第 二 个 和 第 三 个 专家 网 络 能 分 别 集中 学 习 分 布 中 “难以 学 习 " 的 部 分 。 
在 最 早 由 Schapire(1990) 提 出 的 推举 算法 的 理论 推导 中 ,用 简单 表决 来 评估 委员 会 机 器 


对 于 未 学 习 过 的 测试 模式 的 人 性能。 特别 地 ， 一 个 测 





试 模式 被 提交 给 委员 会 机 器 ， 假 如 第 一 个 


和 第 二 个 专家 各 自 的 决策 相 一 致 ， 则 使 用 这 个 类 的 标号 。 否 则 ， 使 用 第 三 个 专家 发 现 的 类 的 
标号 。 但 是 ， 由 Dmeker et al.(1993,1994) 给 出 的 实验 工作 确定 将 三 个 专家 各 自 的 输出 相 加 


将 会 产生 比 表决 更 好 的 性 能 。 比 如 说 ， 
在 光学 字符 识别 (0CR) 问 题 中 ， 相 加 
运算 仅仅 只 对 一 个 专家 “数字 0 的 输出 
相 加 ， 另 外 的 9 个 数字 的 输出 也 是 同 
样 的 。 
假如 三 个 专家 ( 即 子 假说 ) 在 它们 

各 自 训练 的 分 布 上 误差 率 为 es < 12; 
也 就 是 说 ， 它 们 三 个 都 是 弱 学 习 模 型 。 
在 Schapire(1990) 中 证 明 委 员 会 机 器 的 
总 误差 率 以 

g(e) = 3s - 26 (7.15) 
为 界 。 界 z(e) 相 对 。 的 图 形 如 图 7-3 
所 示 。 从 该 图 中 ， 我 们 可 以 看 出 春 比 
原始 误差 痊 。 小 得 多 。 通 过 递归 运用 












0 


推举 的 性 能 的 界 
EGG =3e -2 








图 7-3 式 (7.15) 通 过 浊 波 推举 的 图 形 
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推举 算法 ， 这 个 误差 率 能 变 得 任意 小 。 -个 弱 学 习 横 起， 其 件 能 仪 仅 比 随机 猜想 好 一 点 ， 被 
转换 成 一 个 强 学 习 模型 。 在 这 个 意义 上 我 们 可 以 说 强 学 习 模 型 和 弱 学 习 模型 确实 是 等 价 的 。 
自 举 

通过 过 滤 推 举 的 一 个 实际 的 局 限 在 于 它 经 常 需要 大 量 的 训练 样本 。 这 种 局 限 能 通过 利用 
另外 一 种 称 为 自 举 (AdaBoosb) 的 推举 算法 克服 (Freund and Schapire,1996a, 1996b ) ， 它 属于 重 
新 采样 的 推举 。 自 举 的 采样 框架 是 集中 式 学 习 的 自然 框架 ; 最 重要 的 是 ， 它 允许 训练 数据 重 
用 。 





和 通过 过 涉 算 法 推举 一 样 ， 自 举 方法 也 用 于 青学 习 模型 。 这 个 新 方法 的 目的 是 找到 一 个 
对 给 定 的 带 标号 样本 的 分 布 9 具有 有 低 误 益 率 的 最 终 映 射 冰 数 或 假说 。 它 在 两 个 方面 和 其 他 的 
推举 不 同 。 

。 自 举 自 过 应 调节 由 弱 学 习 模型 返回 的 弱 修 设 误差 ， 这 就 是 算法 各 称 的 由 来 。 

。 自 举 性能 的 界 只 了 决 于 能 学 习 模型 对 学 习 过 程 中 实际 产生 的 那些 分 布 的 性 能 。 

自 举 抬 作 如 下 。 对 于 选 代 =， 推 举 算法 提供 在 训练 样本 9 上 分 布 为 g， 的 弱 学 习 模 型。 作 
为 响应 该 弱 学 习 模型 计算 一 个 假说 9。，X->Y， 它 能 正 确 地 分 类 训练 样本 的 一 部 分 。 误 差 通 
过 分 布 9, 来 度量 。 这 个 过 程 持续 了 次 迁 代 ， 最 后 推举 机 器 将 这 些 假说 9，,9, ，… ,下 > 合并 成 
一 个 最 终 的 假说 ga 。 

为 了 计算 (]) 对 选 代 ”上 的 分 布 8. ， 和 (2) 景 终 的 假说 ge ， 使 用 表 7-2 小 结 的 简单 过 程 。 
初始 分 布 8, 是 训练 样本 9 上 的 均匀 分 布 ， 表 示 为 

ai 人 (= 二 对 于 所有 的 ; 

给 定 算法 在 迁 代 ”= 的 分 布 9 和 弱 假说 8,， 如 有 果 弱 假说 区。 能 正确 分 类 输 和 向量 x ， 则 下 一 
个 分 布 8, ,中 对 例子 i 的 权重 滋 以 一 个 数 RE [0,1]; 否则 ， 权 值 不 变 。 然 后 通过 将 权 值 除 
以 归 一 化 常数 乙 而 重新 归 一 化 。 实 际 上 ， 训 统 集 5 总 被 许多 先前 的 弱 候 说 正确 地 分 类 的 " 容 
易 "的 样本 赋予 校 低 权 值 ， 而 被 经 党 错误 分 类 的 “ 难 "的 样本 被 卫 巴 了 较 高 的 权 值 。 因 此 自 举 
等 法 将 更 多 的 权 信 集中 到 看 起 来 最 难 分 类 的 样本 上 。 

至 于 最 终 假说 gw ， 它 是 根据 弹 假 说 F，,S。,，… ,8 加权 表决 的 方式 ( 即 加 权 线性 六 值 ) 计 
算 的 。 也 就 是 说 ， 对 于 一 个 给 定 的 输入 向 量 x， 最 终 假说 8 输出 的 标号 4 使 得 预测 该 输出 
标号 的 弱 假 说 的 加 权 求 和 为 最 大 。 假 说 8F, 的 公 值 定义 为 lg(1/8,)， 结 果 是 较 大 的 权 值 被 几 
子 较 低 误 差 率 的 假说 。 
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自 举 的 一 个 重要 理论 性 质 如 下 面 定理 所 述 (Freund and Schapire,1996a) : 
假如 一 个 习 学 习 模 型 ， 当 被 自 举 调用 时 ， 产 生 误差 为 el ,e,，…,er 的 假说 ， 其 中 自 举 算 
法 在 达 代 丑 时 误差 E 定义 为 
ea 一 马 (让 


EC 


假设 名 所 12， 且 令 y = 1L2- 名 。 那 么 最 终 假说 误差 的 如 下 上 界 成 立 ; 
z 
志 1figa(x) “dlisTVT 人 <oo(-22mz) (7.16) 





亚 界 参 马 党 
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这 个 定理 证 明 通 过 弱 学 习 异型 构造 的 弱 假 说 只 要 恒 有 着 比 1/2 稍微 好 一 点 的 误差 ， 则 最 





终 假说 叫 。 的 训练 误差 所 指数 级 下 
定 小 。 在 Freund and Sehapire( 1996: 


降 趋 于 0。 但 是 ， 这 并 不 意味 着 测试 数据 上 的 泛 化 误 善 必 
a) 中 给 出 的 实验 表明 现 点 。 第 一 ， 训 练 误差 的 理论 界 经 党 


是 很 弱 的 ; 第 二 ， 泛 化 误差 倾向 于 比 该 理论 暗示 的 误差 好 得 多 。 
琢 7-2 给 出 用 于 一 个 二 信 分 类 问题 的 自 举 的 小 结 。 


输入 : ”训练 样本 ix ,Ji 
六 个 标记 样本 的 分 布 8 
弱 学 习 异 型 
称 数 了 指定 算法 的 迭代 次 数 
补 站 化 : 对 于 所 有 的 ， 冒 gif 让 = ] 





表 7-2 自 举 方法 小 结 





计算 ， 对 于 上 =1,2,…, 了 ， 进 行 下 面 的 过 程 : 


1. 调用 绸 学 习 模型 ， 对 它 提供 分 
2. 返回 假说 字 ，: X 
3. 计算 假说 9 。 的 说 关 


4. 设置 如 = 人 1-tn)》 
5. 更 新 分 布 字 ，: 


时 


布 @。 


昌 ( 位 若 守 。(xi) = 丰 
站 = 一 X 


马 1 否则 


其 中 Za 是 归 一 化 常数 (选择 它 使 得 了, (站 是 一 概率 分 布 )。 


栓 贞 : 最 终 的 假说 是 


凶 ,00 = mg 


于 ne 二 


max 避 
0 





当 可 能 的 类 别 (标号 )M >2 时 


， 推 举 问题 变 得 更 复杂 ， 因 为 随机 猜想 给 出 工 确 标 号 的 概 











率 是 11W， 比 12 要 小 。 在 这 种 情况 下 为 了 推举 能 使 用 任何 比 随机 猜想 好 一 点 点 的 假说 ， 我 


们 就 需要 改变 算法 和 * 弱 学 习 " 算 
《1997) 以 及 Schapire(1997) 中 描述 。 


误差 特性 




















法 是 什么 的 定义 。 使 用 改变 的 方法 在 Freund and Schapire 


存 Breiman (1996b) 中 报告 的 自 举 方法 的 实验 表明 ， 当 训练 误差 和 测试 误差 作为 推举 迁 
代 次 数 的 函数 时 ， 我 们 经 常 发 现 当 训练 误差 实质 上 减 小 为 0 后， 测试 误差 继续 下 降 。 这 种 





现象 如 图 7-4 所 显示 。 对 于 通过 
果 。 


过 滤 的 推举 ，Drucker et al.(1994) 更 早报 导 过 类 似 的 结 








根据 我 们 所 知道 的 单个 神经 网 络 的 一 般 特性 来 说 ， 图 7-4 所 显示 的 现象 是 令 人 惊讶 的 。 


回想 第 4 章 ， 在 用 反 向 传播 算法 训 
个 最 小 值 ， 然 后 由 于 过 拟 合 而 上 逢 
网 络 通过 不 断 的 训练 变 得 越 来 越 











练 多 层 感 知 器 时 ， 测 试 (确认 ) 数 据 的 误差 先 减 少 ， 到 达 一 
+; 可 以 参看 图 4-20。 图 7-4 所 示 的 情况 是 很 不 同 的 ， 随 少 
复杂 ,推广 误差 持续 下 降 。 这 种 现象 伺 乎 和 “0ccam 剃 刀 原 
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理 " 相 冲突 ， 孩 原理 表明 ， 一 个 学 习 机 器 应 
尽 可 能 地 简单 ， 以 便于 达到 一 个 好 的 泛 化 
人 性能。 

在 Sechapire et 由 .(1997) 中 ， 给 出 对 这 个 
用 于 委 举 的 志和 象 的 一 种 解释 。 那 里 提出 的 
分 析 的 重要 思想 是 ， 当 计算 一 个 推举 机 器 
产生 的 泛 化 误差 时 ， 不 仅仅 要 考虑 训练 误 
差 , 还 要 考虑 分 类 的 置信 度 (econfidence)。 
提出 的 分 析 揭 示 推 举 和 支持 向 唱机 之 间 的 
关系 ; 支持 向 量 机 已 经 在 前 一 章 考 虑 。 特 
别 地 ， 比 如 分 类 边界 定义 为 赋予 属于 那个 
样本 的 正确 标号 的 权 值 和 赋予 任 一 不 正确 
标号 的 最 大 权 值 的 差 。 从 这 个 定义 ， 容 易 
看 出 边界 是 区 域 [ - 1， 问 内 的 一 个 数 ， 并 且 
如 果 一 个 样本 能 被 正确 分 类 的 充分 必要 条 
件 是 它 的 边界 是 正 的 。 因 此 Schapire 等 人 证 
明 在 图 7-4 中 观察 到 的 现象 确实 和 产生 表决 
分 类 误差 的 训练 样本 的 边界 分 布 有 关 。 需 






































四 








要 再 次 强调 的 是 Sohapire et al.(1997) 给 出 的 
边界 分 析 只 是 针对 自 举 的 和 不 适用 于 其 他 
推举 的 算法 。 


7.5 计算 机 实验 


在 这 个 实验 中 ， 我 们 将 运用 通过 过 滤 
的 推举 算法 解决 一 个 相当 难 的 模式 分 类 任 
务 。 分 类 问题 是 二 维 的 包含 非 凸 的 决策 区 
域 ， 如 图 7-5 所 示 。 一 类 模式 由 位 于 标号 为 
多 的 区 域内 的 数据 点 组 成 ， 另 外 一 类 模式 
由 位 于 标号 为 %, 的 区 域内 的 数据 点 组 成 。 
要 求 设计 一 个 委员 会 机 器 ， 用 于 决定 一 个 
测试 模式 属于 类 4, 或 类 G, 。 





























错误 率 












测试 (这 化 ) 误 获 计 
推举 选 代 次 数 
图 7-4 自 举 算法 的 概念 化 误差 特性 
3 一 
2 了 
1 了 
妈 0 -1 


-二 2 











加 


图 7-5 用 二 推举 试验 的 模式 构 形 


用 于 解决 这 个 问题 的 委员 会 机 器 由 三 个 专家 组 成 。 每 一 个 专家 包含 由 两 个 输 人 节点 、 五 


个 隐藏 神经 元 和 两 个 输出 神经 元 组 成 的 2 - 5 -- 2 多 层 感知 器 。 应 用 反 向 传播 算法 完成 训练 。 
图 7-6 显 示 用 来 训练 三 个 专家 的 数据 散布 图 。 图 7-6a 所 示 数 据 用 于 训练 专家 1。 图 7-6b 所 
示 数 据 是 经 过 在 专家 1 完成 训练 后 过 泪 得 到 的 ; 这 些 数据 和 用 于 训练 专家 2。 图 7- 6c 所 示 的 数 























据 是 由 专家 ! 和 专家 2 所 共同 过 滤 后 用 来 训练 专 家 3 的 。 对 于 每 


个 专家 来 说 ， 训 练 样本 的 


大 小 都 是 W = 1000 个 模式 。 仔 细 检 查 这 三 个 图 我 们 可 以 观察 到 ， 
”图 7-6a 中 用 于 专家 1 的 训练 数据 是 均匀 分 布 的 。 
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。 图 7-6b 中 用 专家 2 的 训练 数据 ， 显 示 在 标 右 A 和 了 的 区 域内 数据 点 的 集中 ， 这 对 于 











专家 1 分 类 来 说 他 乎 很 困难 的 。 在 这 两 个 区 域内 的 数据 点 的 数目 等 于 被 正确 分 类 


的 点 的 数目 。 
图 7-6c 中 用 于 专家 3 的 训练 数据 ， 显 示 数 据点 更 加 集中 ， 和 看 起 来 对 于 专家 1 和 专家 


2 分 类 来 说 者 是 困难 的 。 





























一 2 一 | 0 于 了 


图 7-6 ”推举 的 计算 机 试验 中 用 于 专家 训练 的 样本 散布 图 
可 专家 1 上 专家 2 o 专 家 3 

图 7-7a、7-7b、7-7c 显示 专家 1 、 专 家 2 和 专家 3 各 自 形成 的 决策 边界 。7-7d 显示 通过 
将 三 个 专家 输出 进行 简单 相 加 而 形成 的 总 体 决 策 边界 。 注 意 ， 属 于 专家 上 和 专家 2 的 决策 区 
域 7-7a 和 7-7b 之 间 的 差异 定义 用 来 训练 专家 3 的 图 7-7c 的 训练 数据 点 的 分 布 。 

三 个 专家 对 于 测试 数据 正确 分 类 的 概率 是 : 

专家 1: 75.15 多 ， 专 家 2: 71.44% ， 专 家 3: 68.90% 

整个 委员 会 机 器 的 正确 分 关 概 率 是 91.79% ， 它 是 用 32 000 个 模式 的 测试 数据 计算 得 到 
的 。 图 7-74 所 示 的 三 个 专家 的 推举 算法 建立 的 总 体 决策 边界 ， 进 一 步 证 明 它 的 良好 分 类 人 性 
能 。 






























































3 晤 























图 7-7 在 推举 试验 中 不 同 专家 形成 的 诀 策 边界 
专家 1 日 专家 2 o) 专 家 3 qd) 整 个 委员 会 机 器 


7.6 ”联想 Gauss 混合 模型 


从 本 节 开 始 的 本 章 第 二 部 分 我 们 研究 第 二 类 委员 会 机 器 ， 即 动态 结构 。 用 在 这 里 的 术语 
“动态 "是 指 专家 的 知识 整合 是 在 输 人 信和 号 的 参与 作用 下 完成 的 。 
为 了 开始 我 们 的 讨论 ， 考 虚 一 个 组 合 网 络 ， 在 其 中 学 习 过 程 是 通过 将 学 习 的 自 组织 和 监 
督 形式 以 无 缝 方式 融合 在 一 起 处 理 的。 各 个 专家 从 技术 上 进行 监督 学 习 ， 把 它们 各 自 的 输出 
[6 整合 以 模拟 期 望 响 应 。 但 是 各 个 专家 也 进行 自 组 织 学 习 ; 即 它们 自 组 织 地 发 现 一 个 好 的 输 人 
空间 的 分 割 ， 以 便于 每 个 专家 能 很 好 地 模拟 它 自己 的 子 空间 ， 而 且 作为 一 个 完整 的 组 它们 能 
很 好 地 模拟 输入 空间 。 
在 刚才 描述 的 学 习 方案 中 ， 有 一 点 和 前 面 三 章 讨论 的 学 习 方 案 不 同 ， 那 就 是 假设 用 一 个 
特殊 的 模型 产生 训练 数据 。 


概率 产生 模型 
为 了 确定 概念 ， 考 虑 一 个 回归 问题 ， 其 中 一 个 回归 量 x 产 生 用 随机 变量 妨 表 示 的 响应 ; 
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这 个 随机 变量 的 一 个 实例 用 d 米 表 示 。 为 了 简化 表达 ， 并 不 撩 一 般 性 ， 我 们 采用 -个 怀 重 
形式 的 回归 。 我 们 假设 响应 d 的 产生 遵循 下 列 的 概率 模型 (Jordan and jacobs,1995): 

1. 输入 向 基 随 机 地 从 某 一 先 验 分 布 中 选取 。 

2. 给 定 x 利 某 个 参数 向 量 a% ， 根 据 条 件 概率 P(E1X,ao ) 选 定 某 个 特定 的 规则 ， 比 如 
说 第 天 个 规则 。 

3. 对 于 规则 站， 直 = 1 2,…, 。 模 型 响应 由 和 X 是 线形 关系 ， 并 且 胡 一 个 附加 的 误差 

sr，Ex 异 拟 成 Gauss 随机 分 布 的 随机 变量 ， 其 均值 为 0， 方 关 为 单位 值 1， 
FE[ej=0 对 于 所 有 的 天 (7.17) 
和 var[eg] =1 对 于 所 有 的 天 《7.18) 
第 3 点 作出 单位 方差 的 假设 只 足 为 了 讲解 的 简 沾 性 。 一 般 地 ,每 -个 专家 都 有 能 从 训练 数据 
中 学 习 的 ，` 个 不 同 的 输出 方差。 

给 定 x 和 某 个 参数 向 量 w ,5 = 1,2,…, 天 ,局 的 概率 产生 取决 于 条 件 概率 P(D = 
dx，wi ) 。 我 们 并 不 要 求 刚才 描述 的 概率 产后 模型 必须 是 对 物理 现实 的 一 个 直接 的 对 应 
相反 ,我 们 仅仅 要 求 在 那里 包含 的 概率 决策 能 表示 一 个 抽象 模型 ， 它 以 递增 的 精确 度 确定 一 
个 非 线性 流 形 上 响应 也 的 条 件 均 值 ， 这 个 非 线性 流 形 建立 输入 向 量 和 乌 值 输出 的 关系 
《Jordan .1994) 。 

根据 这 个 异型 ， 对 应 于 标号 志 的 天 个 选择 ， 响 应 刀 能 产生 天 个 不 同 的 方法 。 因 此 , 在 
给 定 输入 向 量 x 的 情况 下 ， 产 生 响 应 户 = 4 的 条 件 概率 等 于 


天 
P(D = dx92) = 2 P(D= dgwi2)POEIXaoD) (7.19) 


其 中 ，b 是 产生 模型 的 参数 向 量 ， 代 表 ao 和 和 1w 各 泛 : 的 结合 。 在 am 和 we 中 的 上 标 0 尾 
用 来 区 分 产生 模型 的 参数 和 下 面 要 讨论 的 混合 专家 异型 的 参数 的 。 


混合 专家 模型 


考虑 如 图 7-8 所 示 的 网 络 设置 ， 称 为 混合 专家 ( mixture of expers,ME) 模 型 二 。 特 别 地 ， 
它 由 天 个 叫 专家 网 络 或 是 简称 专家 的 监督 模块 组 成 ， 并 且 有 一 个 叫 门 网 (gating network) 的 整 
合 单元 ， 在 专家 网 络 中 充当 协调 者 的 角色 。 假 定 不 癌 的 专家 根据 前 面 所 讲 的 概率 产生 模型 在 
输入 空间 不 同 的 区 域 工作 得 最 好 ， 这 就 需要 门 网 协调 。 
回归 问题 假定 为 是 标量 的 ， 香 一 个 专家 网 络 包含 一 个 线性 让 波 器 。 图 7-9 构成 专家 上 
的 单个 神经 元 的 信 叶 流 图 。 因 此 ， 专 家 天 产生 的 输出 是 输入 向 量 x 和 该 神经 元 突 触 权 值 向 基 
ws 的 内 积 ， 表 示 为 





























车 








思 = WwWx， 上 = 1 2 天 (7.20) 
门 阿 由 单 层 的 才 个 神经 元 组 成 ， 每 个 褐 经 元 被 指派 给 一 个 特定 的 专家 。 图 7- i0a 是 门 网 的 结 
构图 ,图 7- 10b 是 在 该 网 络 中 神经 元 上 的 信号 流 图 。 和 专家 不 一 样 ， 门 网 的 神经 元 是非 线性 
的 ， 它 们 的 激活 函数 由 




















ep(o 


= 四 下 = 工 2 《7.21) 
exp(uw) 
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图 























7-9 构成 专家 皮 的 单个 
线性 挤 经 元 的 信号 流 图 


























也 
图 7-10 


二 用 子 门 网 的 单 层 软 最 大 坟 经 元 5) 软 最 大 神经 元 信 生 流 图 


定义 ， 其 中 几 是 输 和 人 向 量 x 和 窗 触 权 值 向 量 ak 的 内 积 ， 即 


= arx， 天 = 


1 2 下 (7.22) 


式 47.21) 归 一 化 的 指数 变换 可 以 看 作 logistic 函数 的 多 输 人 推广 。 它 保持 了 输入 值 的 级 次 ， 且 
是 一 个 选取 最 大 值 的 “ 胜 者 全 得 "运算 的 可 微分 推广 。 由 于 这 个 原因 ，(7.21) 的 激活 函数 称 为 
软 最 大 (softmax)(Brigle,1990a)。 注 意 由 于 w 对 输入 x 的 线 件 依赖 使 得 门 网 的 输出 是 x 的 一 


个 


率 ( 


E 线 性 函数 。 




















最 间 


和 











对 于 门 网 作用 的 概率 解释 ， 我 们 可 以 认为 它 是 一 个 分 类 器 ， 将 输入 向 量 映 射 到 多 项 概 





multinomial probability) ， 以 便 不 同 的 专家 将 能 够 匹配 期 望 的 响应 (Jordan and Jacobs,1995)。 
莉 要 的 是 ， 将 * 软 最 大 "用 作 门 网 的 激 医 函数 能 确保 这 些 概率 满足 以 下 要 求 ， 
0s es 对 于 所 有 的 上 《7.23》 


攻 
袜 7ex = 
3 


1 【7.24)》 
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令 六 代表 输入 向 量 为 工时 第 让 个 专家 的 输出 。 这 个 ME 模型 的 整体 笨 出 是 


y = 六 er 《7.25) 
其 中 ， 正 像 前 面 指出 的 那样 ，gx 是 x 的 一 个 非 线 信函 数 。 当选 定 了 概率 产生 模型 的 规则 马 
单个 输出 和 可 以 看 作 随 机 变量 的 条 件 均值 ， 表 示 为 





厂 [六 1XE = 7 = WwW = 2 天 (7.26) 
用 心 表示 呈 的 条 件 均值 ， 可 以 写成 
生 = 入， 有 = 2 大 (7.27) 
的 方差 同 误差 es 的 方差 一 样 。 央 此 根据 式 (7.18)， 可 以 写 出 
Yar[ 厂 |x 下 = 1， 下 = 112 ,天 (7.28) 


当 给 定 输入 向 量 x 和 选取 概率 产生 模型 的 第 志 个 规则 ( 即 专家 如 后 ， 刀 的 概率 密度 函数 可 
以 描述 为 





(alxE6 = exp( -于 -7 门 ， 开 12 天 (7.29》 
加 


V 2 
其 中 8 表示 门 网 的 参数 和 ME 模型 中 那些 专家 的 参数 的 参数 向 量 。 给 定 x， 的 慨 率 密度 鹃 
数 是 概率 密度 函数 | 户 (41x,&.9)|: ,的 混合 ， 它 的 混合 参数 由 门 网 决定 的 多 项 概率 给 出 。 
此 可 以 写成 


汪 1 总 1 : 
NdTxg9 =- 补 eptalsbg =- 让 习 eepl- 芭 -0 03 


式 (7.30) 的 概率 分 布 称 为 联想 Gauss 混合 模型 (associative Caussian mixture model) ， 其 非 联 
想 的 对 应 物 是 传统 Gauss 混合 模型 (Titierington et al. ,1985; MeLachlan and Basford,1988) ， 这 在 
第 5 章 简要 描述 。 一 个 联想 模型 区 别 于 非 联 想 模型 的 不 同 之 处 在 于 其 条 件 均值 心 和 混合 参 
数 & 是 非 国定 的 ; 相反 ， 它 们 都 是 输 和 向量 x 的 琐 数 。 式 (7.30) 的 联想 Gauss 混合 模型 可 以 
被 看 作 传统 Gauss 模型 的 推广 。 
图 7-8 所 未 ME 模型 假定 通 过 训练 得 到 恰当 调整 ， 则 其 重要 方面 是 : 

1. 给 定 x 和 概率 产生 模型 的 规则 下 成立 ， 第 在 个 专家 的 输出 思 提供 代表 期 望 响 应 九 的 
随机 变量 的 条 件 均 值 的 一 个 估计 。 

2. 门 网 的 输出 闷 定义 在 单独 从 x 获 得 知识 的 基础 上 专家 下 的 输出 匹配 值 忆 = d 的 多 项 
概率 。 

给 定 训练 样本 |(x, , 一)| 忆 和 以 式 (7.30) 的 概率 分 布 工作 ， 问 题 就 是 要 以 最 优 的 方式 学 
习 条 件 均值 心 = y* 和 混合 参数 g ,上 左 = 1,2,…, 天 ,使 得 方 (dlx,9) 提 供 负责 产生 训练 数据 的 
环境 的 固有 概率 密度 函数 的 良好 估计 。 

例 7.1 回归 曲面 考虑 一 个 包含 两 个 专家 和 一 个 由 上 和 gz 表示 两 个 输出 的 门 网 的 
ME 模型 。 输 出 g, 定义 为 (参看 式 (7.21)) 
















































































exP(a ) 四 1 
exp(ai) + exp(z) 1+exp(- (al )) 


令 a 和 & 代表 门 网 的 两 个 权 值 向量。 我 们 可 以 写成 


EX7ak， 下 = 1,2 


(7.31) 





8 二 
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从 而 重新 将 等 式 (7.31) 扫 成 
1 


TCR (7.32) 


如 | 二 


门 网 的 另外 -个 输出 6 是 


有 二 二 3 

因此 ，i， 品 都 是 Jogistic 上 数 的 形式 。 但 有 一 点 差别 。 名 的 方向 由 差 向 量 (a -人 ) 的 方向 
决定 ， 而 6 的 方向 由 冀 向 量 (& - aa ) 的 方向 决定 ， 刚 好 和 门 g| 的 方向 相反 。 沿 着 由 和 = 饥 
定义 的 关 线 ， 我 们 可 以 得 到 @ = @m = 112， 这 两 个 专家 对 该 ME 模型 的 输出 南 献 是 相同 的 。 
远离 月 线 ， 则 这 两 个 专家 中 的 -- 个 或 痢 另 外 一 个 充当 支配 角色。 


7.7 分 层 混 合 专家 模型 


如 图 7-8 所 示 的 MF 模型 的 工作 是 通过 将 输入 空间 分 解 成 不 同 的 子 空间 ， 由 一 个 门 网 负 
责 分 散 信息 (从 训练 数据 中 收集 给 不 同 的 专家 。 如 图 7-11 所 示 的 分 层 混合 专家 (HME) 模 型 
是 ME 模型 的 自然 扩展 。 这 个 图 例 是 由 四 个 专家 组 成 的 一 个 HME 模型 。HME 由 型 的 体系 结 
构 是 一 棵 树 ， 门 网 在 树 的 非 终端 节点 ， 而 专家 在 树 的 叶子 部 分 。HME 模型 和 ME 模型 的 不 同 
之 处 在 于 其 输入 空间 规 分 成 一 个 坟 蛮 的 子 空间 集 ， 在 多 个 以 分 层 方式 调整 的 门 网 控制 下 信息 
在 专家 之 间 被 台 合 或 者 重新 分 配 。 


专家 









































输入 向 重 
xm 






































门 网 











第 一 层 门 网 
图 ?-11 两 个 层次 的 层次 混合 专家 (HME) 不 意图 
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如 图 7-11 所 示 的 HME 模型 有 两 层 层次 或 两 层 门 网 。 继 续 以 同样 方式 运用 分 而 治之 的 原 
则 ， 我 们 王 以 构造 任意 多 层 层 次 的 HME 模型 。 注 意 根据 图 7-11 所 描述 的 约定 ， 门 网 层 的 编 


号 从 树 的 输出 节点 开始 。 








图 7-11 所 示 的 HME 模型 的 构成 可 以 从 两 方面 观察 (Jordan, 1994) : 

1.HME 模型 是 分 而 治之 策略 的 产物 。 如 果 我 们 相信 将 输入 空间 分 成 区 域 是 一 个 好 策略 ， 
那么 及 将 区 域 分 成 子 区 域 足 一 个 同样 好 的 策略 .我 们 可 以 递归 地 继续 采用 这 种 方式 ， 直 到 达 
到 这 样 一 个 阶段 ， 逼 近 曲 面 的 复杂 性 是 对 训练 数据 “局 部 "复杂 性 良好 拟 合 。 因 此 HME 模型 
至 少 应 有 ME 模型 一 样 的 性 能 ， 而 且 经 常 奖 比 它 好 。 这 是 基于 这 样 原 因 : 一 个 HME 模型 中 
较 高 层 的 门 网 有 效 地 整合 信息 ， 并 且 把 它 重 新 分 配给 该 门 网 控制 下 的 特定 子 树 的 专家 。 因 
此 ， 在 所 讨论 的 子 树 中 每 一 个 参数 和 在 该 子 树 中 的 其 他 参数 一 起 分 享 强度 ， 因 而 有 助 于 提高 


HME 模型 的 整体 性 能 。 















































2.HME 模型 是 一 个 软 决策 树 。 根 据 这 种 观点 ,混合 专 家 只 不 过 是 单 层 的 决策 树 ， 有 时 
也 称 为 决策 树桩 (decision stump) 。 从 一 个 更 一 般 的 背景 来 说 ，HMF 模型 可 坑 为 决策 树 的 概率 
框架 ， 具 有 称 为 决策 树 树 根 的 HME 异型 的 输出 和 节点。 标准 决策 例 的 方法 是 构造 一 栋 树 ， 该 























树 在 输入 空间 的 不 同 域 上 导出 一 个 硬 ( 即 是 或 否 ) 决 策 。 这 和 HME 模型 上 的 软 决策 形成 对 照 。 
此 ， 基 于 下 面 的 两 个 原因 HME 模型 会 胜 过 标准 决策 树 


” 一 个 硬 决 策 不 可 避免 的 丢失 信息 ， 但 一 个 软 决 策 树 尽力 地 保存 信息 。 例 如 一 个 软 二 
分 决策 传送 距 决 策 边 界 ( 即 其 决策 是 0.5 的 点 ) 的 距离 信息 ， 而 一 个 硬 决 策 做 不 到 这 
“~ 点。 因此 我 们 可 以 说 不 像 标准 的 决策 树 ，HME 模型 符合 信息 保持 规则 (infommation 
Preservation mle)。 这 个 经 验 规则 表明 一 个 输入 信号 的 信息 内 容 应 该 以 计算 有 效 的 方 








式 保存 直到 系统 作 好 进行 最 后 决策 或 者 参数 估计 的 准备 。 





” 标准 决策 树 受到 禽 闲 (greediness] 问 题 的 损害 。 一 旦 从 这 样 的 树 中 作出 一 个 决策 ， 那 
么 在 这 以 后 这 个 决策 薇 冻结 ， 永 和 久 不 会 改变 。HME 模型 减轻 了 贫 禁 问题 ， 因 为 通过 
这 棵 情 所 作 的 决策 是 不 断 变化 的 。 不 像 标准 决策 树 ， 在 HME 模型 中 不 良 决策 可 能 沿 





着 这 棵 树 得 到 恢复 。 





第 二 种 观点 ， 即 在 考虑 HME 模型 时 一 个 软 决策 例 是 首选 的 方法 。 当 将 HME 模型 看 作 决 
策 树 的 概率 基础 时 ， 对 任何 给 定 的 数据 集 它 多 许 我 们 计算 似 然 数 ， 并 且 对 决定 输入 空间 不 








同 区 域 之 间 分 割 的 参数 求 最 大 似 然 估计 。 











而 在 我 们 已 知 的 标准 决策 树 的 基础 上 ， 可 以 得 到 


-个 实际 的 模型 选择 问题 的 解决 方案 ， 这 在 下 一 节 进 行 讨论 。 


7.8 ”使 用 标准 决策 树 的 模型 选择 


和 每 一 种 其 他 的 神经 网 络 一 样 ， 对 于 参数 估计 问题 的 一 个 满意 解 ， 关 键 在 于 对 所 解决 的 
问题 选择 合适 的 模型 。 在 HME 模式 的 情形 ， 模 型 选择 包括 树 中 的 决策 节点 的 数 月 和 组 织 。 
这 种 特殊 的 模型 选择 问题 的 一 个 确实 可 行 的 解决 方案 是 在 训练 集 上 运行 标准 次 策 树 算法 ， 然 
后 采用 获得 的 树 作为 决定 HME 模型 的 参数 的 学 习 算 法 的 初始 化 步 又 (Jordan,1994)。 





HME 模型 和 标准 决策 树 有 很 清晰 的 相 
树 (classification and regression tree, CART) 。 








也 性 ， 比 如 Bieiman et 引 ,(1984) 担 出 的 分 类 和 回归 














7-12 表示 一 个 CART 的 例子 ， 其 中 输入 数据 的 





空间 被 一 系列 的 二 值 分 划 章 分 成 终端 节点 。 比较 图 7-11 和 图 7-12， 我 们 会 发 现 CART 和 


HME 之 间 的 下 述 相似 点 ; 
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， 在 CART 的 中 全 ( 即 非 终端 ) 节 点 中 选择 《 
分 割 的 规则 所 起 的 作用 ， 和 RHME 模型 





中 门 网 的 作用 相似 - 
*。 CART 中 的 终端 节点 所 赵 的 作用 ， 各 和 
HME 模型 中 专家 网 络 作用 相似 。 5 


从 对 感 兴趣 的 分 类 或 回归 问题 的 CART 开 
始 ， 我 们 利用 CART 的 离散 性 ， 在 可 选择 树 中 ” 
提供 一 种 有 效 的 搜索 。 通 过 应 用 这 样 选 择 的 图 7-12 二 叉 决 策 树 ， 搞 述 如 下 : 节点 5 和 节 
棵 树 作 为 参数 估计 学 习 算法 的 初始 化 步 叉 ,我 点 串 为 节点 与 的 后 代 ; 节点 4 和 节点 6 为 节点 
们 利用 HME 模型 的 连续 概率 基础 产生 期 望 响 。 e 的 后 代 ， 节点 5 和 节点 记 为 节点 二 的 后 代 
应 的 一 个 改进 的 “ 软 " 估 计 。 
CART 算法 


根据 我 们 刚才 所 讲 的 ， 可 以 得 到 一 个 CART 算 法 的 简明 描述 。 该 描述 在 同 归 的 背景 下 给 
出 。 以 训练 数据 |(x, ,中 ?1 井 始 ， 我 们 可 以 利用 CART 通过 以 下 的 方式 去 建造 一 个 最 小 平 
方 回归 的 二 叉 树 FT(Breiman et al. ,1984) : 

1. 分 避 的 选 译 。 设 一 个 节点 二 代 表 当 前 树 了 的 一 个 子 集 。 让 4() 代 表 所 有 落 人 :的 
人 ,有 ) 的 四 平均 ， 即 


白 


















































2 = 7 交 D 习 4 (7.33) 
xiEe 
其 中 ，N(8) 是 上 中 所 有 实例 的 数目 ， 对 所 有 xi Et 的 起 求 和 。 定 义 
&(D = 再 习 (d -3 (7.34) 
Et 
和 ED = 习 20 0.35) 





对 于 节点 4/， 冲 和 忆 ，。 (4 - 了 (0)) 代表 “节点 内 的 平方 和 *， 即 它 是 所 有 的 在 上 中 的 


二 和 均值 ( 蕊 的 偏差 平方 总 和 。 将 这 些 5E 7 的 偏差 加 起 来 得 到 所 有 节点 的 偏差 的 平方 之 
和 ,被 丸 除 后 得 到 均值 。 

给 定 了 中 当前 节点 上 的 一 个 分 割 集 $S， 最 好 的 分 割 "是 8 中 使 (7) 减 少 最 快 的 分 割 。 
更 精确 的 说 ， 假 定 对 于 节点 对 的 任何 分 割 *， 它 将 节点 了 上 分 成 站 (左边 的 新 节点 ) 和 (0 右 
边 的 新 节点 )， 我 们 令 


入 吧 (1) = 加 (了 ) 一 思 ( 丰 ) 一 加 (下 ) (7.36) 
那么 要 采 取 的 最 好 分 割 *" 是 一 个 如 下 的 特殊 分 割 
入 日 (5 2) = mA EC) (7.37) 





建立 一 棵 回归 枯 以 使 3S(7) 的 减少 最 大 化 。 
2. 终端 节点 的 确定 。 假 如 下 面 的 条 件 满足 ， 一 个 上 节点 被 声明 为 终端 节点 : 
mAES(Cs 1 < (7.38) 
其 中 有 为 预先 给 出 的 闵 值 。 
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3. 终端 节点 参数 的 最 小 平方 估计 。 令 虐 代 表 最 后 的 二 叉 树 了 的 终端 节点 ， 令 XC 昌 代表 


由 xiE :组 成 的 矩阵 。 令 由 划 代 表 : 中 所 有 丰 组 成 的 对 
(站 = 习 (Cd)d 
其 中 , 尽 ( 昌 是 矩阵 忌 ( 纪 的 伪 道 。 应 用 w( 归 将 在 终端 节点 




















应 向 量 ， 定 义 


(7.39) 
+ 输出 申 产生 一 个 @ 忆 的 最 小 平 








方 估计 。 使 用 式 (7.39) 计 算 产 后 的 权 值 ， 通 过 寻找 关于 区 





日 曲面 残 差 ( 误 差 ) 平 方 的 最 小 和 而 











不 足 均 值 ， 分 割 选 怪 问题 得 以 求解 。 
使 用 CART 初始 化 HME 模型 


假定 CART 的 方法 已 经 应 用 到 一 个 训练 集 上 ， 由 此 产生 这 个 问题 的 一 个 二 又 决策 树 。 我 


包 由 CART 产生 的 分 割 作 为 一 个 多 维 曲面 ， 定 义 为 


ax+b=0 


们 可 以 





其 中 ， 
接着 考虑 一 个 HME 模型 中 对 应 的 情况 ， 从 例 7.1 我 丰 
访 生 的 回归 曲面 可 以 写成 





1 由 
exp(- (axX+ 记 )) 


X 是 输入 向 量 ，a 代表 一 个 参数 向 量 ，2 代表 一 个 偏 置 。 


注意 在 一 个 二 又 树 中 由 一 个 门 网 


《7.40》 





它 定 义 一 个 分 割 ， 特 别 是 g = 12 的 时 候 。 令 这 个 特殊 的 门 
a = |al ,Te 下 





其 中 | 


网 的 权 什 向 基 ( 差 )a 被 写 为 
(7.41) 


3 代表 a 的 长 度 ( 即 欧 几 里 德 范 数 )，ay | a 儿 是 一 个 归 一 化 的 单位 长 度 向 量 ， 将 式 


(7.41) 应 用 到 式 (7.40) 中 去 ， 我 们 可 以 重 写 门 网 的 一 个 参数 化 分 割 如 下 : 





1 





E = 


其 中 可 以 看 出 由 a || 决定 分 割 的 方向 ， 
论 ， 我 们 观察 到 向 





1+ee(- 1al((TeT) x+ 二 红 )) 
1 a| 决定 分 割 的 锐 庆 (sharpnoss)。 通 过 第 2 章 的 讨 
量 a 的 长 度 实 际 上 充当 温度 的 倒数 。 从 式 (7.42) 中 注意 的 重点 是 由 线性 过 


(7.42》 


滤器 后 跟 一 个 非 线性 的 “ 钦 最 大 "形式 组 成 的 门 网 能 够 模仿 一 个 CART 类 型 的 分 割 。 此 外 ， 我 
们 有 另外 的 自由 度 ， 即 向 量 a 的 长 度 。 在 一 个 标准 决策 树 中 ,这 个 附加 的 参数 是 不 相干 的 ， 











因为 用 一 个 阐 值 ( 
分 割 锐 庆 有 极 深 的 影响 。 特 别 地 ， 对 于 一 个 固定 方向 的 突 
下 ; 
” 当 a 长 ( 即 温度 低 ) 的 时 候 ， 分 割 是 尖锐 的 ; 
。 当 a 短 ( 即 温度 高 ) 的 时 候 ， 分 割 是 季 和 的 。 





硬 决 策 ) 来 产生 一 个 分 割 。 相 反 ，a 的 长 度 对 由 HME 模型 中 的 门 网 产生 的 


触 权 值 向 量 a， 我 们 可 以 陈述 如 


假如 在 和 极限 情况 ， 我 们 有 |a‖ =0， 分 割 消失 并 且 在 消失 的 (虚构 的 ) 分 割 两 边 8 = 1/2。 


因为 被 考虑 的 门 网 不 再 分 割 ， 所 以 设置 | al| = 0 的 作用 等 
一 个 极端 的 例子 中 ， 当 | a || 在 每 一 个 非 终端 节点 上 很 小 ( 导 
像 单 个 的 节点 ; 也 就 说 ，HME 模型 退化 成 一 个 线性 同 归 
的 突 触 权 值 向 量 在 长 度 上 开始 增加 ，HME 开始 产生 ( 软 的 ) 
册 庆 的 数目 。 

我 们 可 以 通过 如 下 的 步骤 初始 化 HME; 








辣 于 从 树 中 剪除 非 终端 节点 。 在 
温度 高 )》， 那 么 整个 HME 模型 会 
模型 (假设 线 件 专家 )。 随 闭 贱 值 
分 割 ， 因 而 增加 模型 可 利用 的 自 
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1. 使 用 CART 训练 数据 。 

2. 设置 HME 模型 中 专家 的 突 触 权 值 向 量 ， 使 其 和 在 一 又 树 相应 终端 节点 上 道 过 应 用 
CART 得 到 的 参数 向 重 最 小 平方 估计 相等 。 

3. 对 于 门 网 : 

(ga 设置 突 触 权 值 向 量 ， 使 其 指向 二 叉 栅 中 与 通过 CART 得 到 的 相应 分 割 正 交 的 方向 。 

(b) 设 章 窗 触 权 值 向 景 的 长 放 ( 即 欧 儿 里 德 范 数 ) 等 于 很 小 的 随机 向 量 。 


7.9 先 验 和 后 验 概 率 


多 项 式 概率 &, 和 &-* 分 别 属于 第 一 层 和 第 二 层 的 门 网 ， 从 它们 的 值 仅 依赖 于 输入 向 量 
(刺激 )x 这 个 意义 上 来 说 ， 可 视 为 先 验 概率 。 用 同样 的 方法 ， 可 以 定义 后 验 概率 志和 如 ， 
它们 的 值 既 依赖 于 输入 向 量 x， 叉 依赖 于 专家 对 x 的 响应 : 后 面 的 这 组 概率 对 HME 模型 的 
学 习 方 法 的 发 展 有 用 。 

参考 冬 7-11 的 HME 模型 ， 可 以 定义 树 中 非 终端 和 节点 的 后 验 娄 率 为 (Joran and Jacobs， 
1994) : 





























1 
肛 ep 一 去 (Cd 一 和 
ii= 工 2 (7.43) 


归于 euen(- 本 Ca 一 入) 


和 - ee- 让 - 思 )) 
se 人 - 《4 一 入 


入 和 局 ,的 乘积 定义 专家 (7 且 所 产生 输出 区 呈 训 4 的 联合 后 验 概率 ， 由 


(7.44) 


1 
| -过 (4- 思 ) 
各 = 各 pi = 开 了 《7.45)》 


包 & 生 Eeexp( - 序 (ae 一 功 吕 
给 出 。 概 率 如 满足 下 面 的 两 个 条 件 ， 
0 二 各 所 1 对 于 所 有 的 (六 她 ) (7.46) 
袜 站 = 1 (7.47) 
式 (7. 人) 的 含义 为 信任 足 在 亮 争 的 上 [在 专 家 之 问 分 可。 此 外 ， 从 式 (7.45) 注 意 到 ， 入 与 
4 越 接近 ， 给 予 专家 (7 , 避 ) 的 输出 匹配 d 的 信任 就 越 多 ， 这 是 直观 上 满足 的 。 

HME 模型 的 个 特别 值得 - 提 的 重要 特征 是 计算 后 验 概率 水 及 的 计算 递归 性 。 检 查 式 
(7.42) 和 (7.43)， 发 现 式 (7.44) 中 各 5 的 分 母 看 起 来 是 式 (7.43) 中 各 的 分 子 。 在 一 个 HME 模 
型 中 ， 我 们 想 计 算 树 中 所 有 非 终端 节点 的 后 验 概率 。 这 正 是 递归 性 特别 有 价值 之 处 。 特 别 
地 ， 计 算 树 中 的 所 有 非 终端 节 点 的 后 验 概 率 可 以 通过 如 下 描述 的 一 遍 过 程 得 到 

。 从 这 棵 树 一 层 一 层 地 移动 到 根 节 点 ， 树 的 所 有 非 终端 节点 可 以 通过 简单 地 将 它 的 “ 孩 

子 们 "的 后 验 概率 进行 整合 而 得 到 。 
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7.10 最 大 似 然 估 计 


下 面 转向 HME 模型 的 参数 估计 问题 ， 我 们 首先 注意 它 的 概率 的 解释 和 ME 模型 有 某 些 
不 同 。 因 为 HME 模型 以 “ 义 树 的 形式 组 织 起 来 ， 所 以 假定 负责 产生 数据 的 环境 包括 一 个 深 
台 序 列 的 软 ( 二 又 } 决 策 ， 在 输入 向 量 X 到 给 出 过 的 回归 中 结束 。 特 别 地 ， 我 们 假定 在 HME 
的 概率 产生 模型 中 ， 决 策 模拟 为 多 项 式 随机 变量 (Jordan and Jacobs, 1994)。 即 对 于 每 一 个 答 
入 x,， 我 们 将 &i(x, 愉 ) 解 释 为 和 第 一 个 决策 有 关 的 多 项 式 概率 ， 将 gx 入 ) 解 释 为 和 第 二 
个 决策 有 关 的 条 件 多 项 式 分 布 。 和 明 面 的 一 样 ， 上 标 0 表示 产生 便 型 参数 的 真实 值 。 这 个 决 
策 形成 一 个 决策 树 。 和 ME 模型 一 样 ,“ 软 最 大 "被 用 作 整 个 HME 模型 的 门 网 的 激活 函数 。 
特别 地 ， 顶 层 门 网 的 第 直 个 输出 神经 元 的 激活 和 如 下 定义 ， 

expf ze ) 
exBK ) + exptz) 
其 中 几 是 应 用 到 那个 神经 元 的 输入 加 权 和 。 类 似 地 ， 第 二 层 第 上 个 门 网 的 第 7 个 输出 神经 
元 的 激活 定义 为 




















本 = 让 = 1,2 (7.48) 








expt uax ) 
exp(uas) + exp(zat) 
其 中 区 是 应 用 到 这 个 特定 神经 元 的 输入 加 权 和 。 
由 于 表示 的 原因 ， 我 们 将 要 讲 到 的 HME 模型 仅仅 只 有 两 层 层次 ( 即 两 层 门 网 ) ， 如 图 
7-11 所 示 。 和 ME 模型 一 样 ，HME 模型 的 每 一 个 专家 被 假定 为 由 一 个 单 层 的 线性 神经 元 组 
成 。 令 # 代 表 专家 (7, 丰 ) 的 输出 ， 可 以 把 HMF 模型 的 整体 输出 表示 为 


7 = s 电 sm (7.50) 

遵循 类 似 于 7.6 节 描 述 用 于 ME 模型 的 过 种 ， 给 定 输 入 x， 我 们 可 以 对 图 7-11 的 HME 
模型 的 期 望 响应 的 随机 变量 吕 的 概率 密度 函数 表示 如 下 : 

(dx9) = 塌 电 s 习 eeea(- 丰 ae- (7.51) 

因而 ， 对 于 一 个 给 定 的 训练 数据 集 ， 式 (7.51) 定 义 一 个 数据 的 固有 分 布 的 模型 。 向 量 8 包括 


HME 模型 中 表征 门 网 和 专家 网 络 涉及 的 所 有 突 触 权 值 。 
似 然 函 数 1(9) 的 设计 由 概率 函数 万 (41x,8) 给 出 ， 可 看 作 一 个 参数 向 量 昌 的 函数 、 因 此 


我 们 可 以 写成 


Be = (7 = 1,2 (7.49) 















































Me8) = 万 (d1x;6) 《7.52) 
虽然 条 件 联合 概率 密度 函数 和 似 然 阔 数 是 同样 的 公式 ， 但 我 们 必须 理解 它们 的 不 同 之 处 。 在 
万 (dx,9) 中 ， 输 入 向 量 x 和 参数 向 量 8 是 固定 的 ， 而 期 望 响应 4 是 变量 。 但 是 ， 在 似 然 函 
数 忆 9) 中 ,xx 和 4 都 是 固定 的 ， 而 8 是 变量 。 
实际 上 ， 我 们 发 现 似 然 函 数 的 自然 对 数 使 用 起 来 比 似 然 函 数 本 身 方便 得 多 。 用 大 (9) 表 
示 对 数 似 热 通 教 ， 写 成 









































L(9) = jog[f(9)] = log[ 广 (2 1x,9)] 《7.53) 
&9) 的 自然 对 数 为 风 9) 的 单调 变换 。 这 意味 着 !6) 只 要 增加 ， 其 自然 对 数 5(6) 也 增加 。 因 
为 8) 是 一 个 条 件 概率 密度 函数 的 公式 ， 它 永远 不 可 能 为 负 。 那 就 意味 着 求 (6) 的 计算 无 
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任何 问题 。 因 此 参数 向 量 8 的 一 个 估计 值 和 能 通过 似 热 方程 
日 
末 !9) =0 
得 到 ， 或 者 等 价 地 从 对 教 似 然 方 程 
亲 59) -0 (7.54) 


得 到 。 具 有 所 期 望 的 渐进 性 质 四 的 “最 大 似 然 估计 ”的 术语 通常 是 指 能 使 似 然 函数 K(9) 达 到 
全 局 最 大 化 的 似 然 函 数 方程 的 根 。 但 是 ， 实 际 使 用 的 估计 值 8， 事 实 上 可 能 是 局 部 最 大 而 不 
是 全 局 最 大 。 无 论 如 何 。 归 功 于 Fisher(1925) 的 最 大 似 然 估计 ， 基 于 一 个 相对 简单 的 思想 ; 

不 同 的 总 体 产生 不 同 的 数据 样本 ， 并 且 任何 一 个 给 定 的 数据 样本 更 有 可 能 从 某 个 总 体 而 
不 是 从 其 他 的 总 体 产 生 。 


更 确切 地 说 ， 给 定 输入 向 量 x， 林 知 参 数 向 量 8 是 通过 它 的 最 可 能 值 估 计 的 。 换 句 话 
说 ， 最 大 似 然 估计 自 是 使 得 其 条 件 概率 蚌 数 万 (dl1x,6) 最 大 的 人 参 数 向 量 9 的 值 。 


7.11 HME 模型 的 学 习 策略 


7.10 节 中 HME 模型 的 概率 描述 引导 我 们 将 对 数 似 然 函 数 5(9) 作 为 最 大 化 的 目标 函数 。 
此 时 关键 问题 是 如 何 实 现 最 大 化 。 和 其 他 最 优化 问题 一 样 ， 并 不 是 只 有 独一无二 的 最 大 化 
Z(9) 的 方法 。 相 反 ， 我 们 有 好 几 个 达到 我 们 目的 的 方法 ， 在 这 里 概述 其 中 的 两 个 (Jacobs and 
Jordqan, 1991; Jordan and jacobs ,1994) ; 

1 随机 梯度 方法 。 这 个 方法 产生 5(9) 的 最 大 化 的 在 线 算法 。 对 于 如 图 7-11 描述 的 两 层 
HME 模型 依赖 于 下 面 组 成 的 公式 

，。 专家 (7, 而 中 突 触 权 值 向 量 的 梯度 向 量 3L/aws 

* 顶层 门 网 中 输出 神经 元 上 的 突 触 权 值 向 量 的 梯度 向 量 372/aak 

。 和 专家 他, 如 相连 的 第 二 层 门 网 中 输出 神经 元 的 突 舰 权 值 向 量 的 梯度 向 量 ?7/3ax 

下 面 的 公式 可 直接 证 明 : 


























直 = 和) 瑟 Cata(n) 一 闪 (na))x(n) (7.55) 
疙 =- (pm -人 (om (7.56) 
闪 = 太 ( 四 (Cs 人 -asOD)x(n) (7.57) 


式 (7.55) 表 明 ， 在 训练 的 过 程 中 ， 对 专家 (六 如 ) 的 突 触 权 值 的 调整 ， 是 与 联合 后 验 概率 各 成 
比例 地 修正 输出 zx 和 期 望 响 应 & 之 间 的 误差 。 式 {7.56) 表 明 ， 对 顶层 门 网 的 输出 神经 元 不 的 
突 触 权 值 的 调整 ， 是 使 得 后 验 概率 & (=) 和 相应 的 后 验 概率 反 (n) 逐 崭 靠近 。 式 (7.57) 表 
明 ， 对 与 专家 (7, 如) 相 联系 的 第 二 层 门 网 输出 神经 元 的 突 触 的 调整 ， 是 与 后 验 概率 下 (z) 成 
比例 地 修正 先 蛤 概率 5 和 后 验 概率 性 * 之 问 的 误差 。 

根据 式 (7.55) 至 式 (7.37)， 当 每 一 个 模式 (刺激 ) 共 出 现 后 ，HME 模型 的 突 触 权 值 要 相应 
地 更 新 。 通 过 将 梯度 向 量 对 = 求 和 ， 可 以 得 到 使 对 数 似 然 机 数 5(6) 最 大 化 的 集中 式 的 梯度 
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上 升 算法 。 

2. 期 望 最 大 化 方法 。 期 望 最 大 化 (eqpectalion-maximization,EM ) 算 法 归 动 于 Dempster et a. 
〈1977) 、 提 供 一 个 在 有 缺失 数据 情况 下 计算 最 大 似 然 估计 值 的 迭代 方法 ， 在 此 情况 下 如 果 没 
有 数据 缺失 ， 则 最 大 伺 然 估计 将 是 一 件 简单 的 事情 。FM 算法 的 名 字 是 根据 在 该 算法 的 每 
次 选 代 中 都 有 两 步 这 个 事实 而 得 来 的 ; 

* 期 望 步 或 者 是 世 步 ， 它 使 用 一 个 非 完整 数据 (incompiete date ) 问 题 的 观察 数据 集 和 参 

数 向 重 的 当前 值 .产生 -- 个 假定 的 扩大 的 或 者 称 为 完整 的 数据 集 。 
。 最 大 化 步 或 者 M 步 ， 它 通过 使 卫 步 产生 的 完整 数据 的 对 数 似 然 丽 数 最 大 化 导出 参数 
向 量 的 一 个 新 的 估计 值 。 

因此 ， 参 数 向 量 从 一 个 合适 的 值 开 始 ，F 步 和 M 步 交 替 进 行 直 到 收敛 。 

EM 算法 适用 的 情况 不 仅仅 包括 那些 本 来 就 非 完整 的 数据 ， 还 包括 其 他 各 种 不 同情 况 
这 些 情况 下 数据 非 完 整 对 讨论 的 问题 而 言 一 点 也 不 明显 或 者 说 不 自然 。 实 际 上 ， 最 大 似 然 佑 
计 的 计算 通过 人 工地 使 它 成 为 不 完整 数据 问题 经 常 极其 容易 。 之 所 以 这 样 是 因为 EM 算法 在 
给 定 完整 数据 的 情况 下 能 有 效 利用 减低 后 的 最 大 似 然 估 计 的 复杂 性 (XeLachlan and Frishnan, 
1997)。HME 模型 是 这 样 的 应 用 例子 之 一 。 在 这 种 情况 下 ， 缺 失 数据 以 某 种 指示 器 变量 的 形 
式 人 工地 引 人 到 HME 模型 中 ， 以 方便 估计 未 知 参 数 向 量 的 最 大 似 然 值 ， 正 如 在 7.12 节 讨 论 
过 的 一 样 。 

不 管 屁 通过 随机 梯度 方法 还 是 应 用 ME 算法 进行 设计 ，HME 模型 的 重要 特征 是 双重 的 ; 

” 模型 中 的 每 一 个 门 网 不 断 地 计算 训练 集 的 每 个 数据 点 的 后 验 概 率 。 

” 应 用 于 模型 中 专家 和 门 网 的 突 触 权 值 的 调整 量 ， 从 一 次 选 代 到 下 一 次 ， 是 一 个 所 计 

算 的 后 验 概率 和 相应 的 先 验 概率 的 函数 。 

相应 的 ， 假 如 树 底部 的 专家 网 络 不 能 很 好 地 拟 合 其 局 部 邻 域 的 训练 数据 ， 那 么 树 中 高 层 
的 门 网 的 回归 (判别 ) 曲 面 将 被 移 向 周围 。 这 种 移动 反 过 米 能 帮助 专家 网 络 在 下 一 次 学 习 算 法 
的 选 代 中 通过 平移 它们 进行 数据 拟 合 的 子 空间 而 更 好 地 拟 合 数 据 。HME 模型 就 是 通过 这 种 
过 程 来 政 良 与 像 CART 这 样 的 标准 决策 树 有 关 的 贪 禁 问 题 。 


7.142 EM 算法 


EM 算法 之 所 以 值得 注意 ， 部 分 是 由 于 固有 理论 的 简单 性 和 通用 性 ， 部 分 由 于 其 广泛 的 
运用 包 。 在 这 一 节 我 们 将 在 般 意 义 下 对 EM 算法 做 一 个 简单 的 描述 。 在 下 一 节 我 们 继续 考 
虑 它 在 HME 模型 的 参数 估计 问题 中 的 应 用 。 

让 向 量 z 代 表 缺 失 的 或 者 未 观察 到 的 数据 。 让 上 代表 完整 的 数据 向 量 ， 它 由 一 些 可 观察 
的 数据 日 和 缺失 的 数据 向 量 = 组成。 因而 考虑 两 个 数据 空间 锚 和 g， 它 们 具有 从 侈 到 9 的 多 对 
一 的 映射 。 我 们 不 能 观察 到 完整 的 数据 向 量 r、。 相 反 实 际 仅 能 观察 到 8 中 非 完 整 的 数据 d = 
cd(r)。 

令 天 (r19) 代 表 在 给 定 参 数 向 量 8 的 情况 下 T 的 条 件 概率 密度 函数 。 那 么 随机 变量 已 在 
给 定 8 的 情况 下 的 条 件 概率 密度 函数 可 以 定义 为 

Ada19 =- | Arc19dr 07.59) 


其 中 各 (d) 由 《= dr) 决 定 的 歌 的 子 空 间 。EM 算法 的 直接 目的 在 于 找到 8 的 一 个 值 使 得 非 完 
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整数 据 的 对 数 似 然 画 灼 
Z(9) = log 廊 (d 19) 
取得 最 大 。 但 是 ， 这 个 问题 的 解决 是 通过 间接 地 运用 完整 数据 的 对 数 似 然 函 数 
(9) = logFrCr19) (7.59) 
进行 选 代 来 完成 的 ， 它 是 一 个 随机 变量 ， 因 为 缺失 数据 向 量 z 是 未 知 的 
更 确切 地 说 ， 让 8(m) 代 表 EM 算法 在 迭代 半 时 参数 向 量 8 的 值 。 在 这 次 迁 代 的 卫 步 ， 
我 们 计算 期 户 
Q(8.8(*)》) = ECE(9)] (7.60) 
其 中 期 望 是 对 8(n) 得 到 的 。 在 同一 的 欠 代 的 下 步 ， 在 参数 ( 权 值 ) 空 间 %f 中 对 最 大 化 
0(8,8 (m)) ,这 样 找到 更 新 参数 估计 值 8(n + 0) ， 表 示 为 
6nz+1) = agmax0(6.6(n)) (7.61) 
该 算法 开始 时 参数 向 量 8 的 初始 值 为 68(0)， 然 后 根据 式 (7-60) 和 (7.61) 交 蔡 进行 下 步 和 M 
步 ， 直 到 Z(6Cn +1)) 和 ZL(8(n)) 之 间 的 差 下 降 至 某 一 任意 小 值 ， 此 时 ， 整 个 计算 结束 。 
注意 在 FM 算法 的 一 次 选 代 后 ， 非 完整 数据 对 数 似 然 本 数 不 是 递减 的 ， 表 示 为 (参看 习 
题 7.10) 











En + > 区 (站 )， m = 0,02… (7.62)》 
等 号 成 立意 味 着 我 们 处 于 对 数 伏 然 函数 的 稳定 点 。 


7.13 EM 算法 在 HME 模型 中 的 应 用 


在 熟悉 EM 算法 之 后 ， 我 们 准备 应 用 EM 算法 解决 HME 和 呈 

考虑 图 7- 11 所 示 的 HME 模型 ， 当 它 运 行 训练 集 的 样本 宇 时 ， 令 g 包 和 5 人 f 分 别 代 表 ， 
第 一 层 门 网 上 和 第 二 层 门 网 ( 放 ， 有 采 取 与 沁 策 有关 的 (条 件 多 项 代 梳 率 。 那么 ， 我 们 很 容 
易 得 到 在 给 定 样本 和 参数 向 量 8 的 情况 下 ， 随 机 变量 忆 相应 的 条 件 概率 密度 函数 的 值 
如 下 : 

















万 (dx,6) = 让 态 各 写 ea(- 去 (d -只 尹 (7:63》 


其 中 ， 昌国 个 翌 本 由 专家 (j 1) 产生 的 输出 。 假 定 包含 在 训练 集 内 
的 所 有 六 个 样本 彼此 之 间 是 统计 独立 的 ， 对 于 非 完整 数据 问题 可 以 写 出 对 数 做 然 丽 数 的 公式 

















(6)》 = log[ 开 廊 (da 1x,,6)] (7.64) 
利用 式 (7.63) 代 入 式 (7.64) 且 忽略 常数 - (L2)log(2r) ， 可 以 得 到 
ZL(6) = 袜 oe[ 忆 人 与 有 8ea 人 (- 去 (PP]] (7.65) 


为 了 计算 8 的 最 大 似 然 估计 和 ， 我 们 不 得 不 拷 -一 个 地 (9) 的 稳定 点 ( 即 局 部 或 全 局 最 大 )。 不 
替 的 基 ， 式 (7.65) 所 示 的 最 大 似 然 丁 数 5(8) ， 并 不 能 使 我 们 很 容易 进行 这 种 计算 。 

为 了 克服 这 种 计算 上 的 困难 ,根据 EM 算法 我 们 通过 加 和 一 组 相应 的 缺失 数据 人 为 地 扩 
大 可 观察 数据 | 以 | 沁 ,。 为 这 一 点 引 人 属 手 HME 结构 概率 模型 的 指示 器 变量 如 下 : 

， 2 和 zz 其 被 解释 为 对 训练 集中 第 : 个 样本 所 做 决策 的 相应 标号 。 这 些 变量 这 样 定义 ， 
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使 得 对 于 所 有 i， 只 有 一 个 zi 等 于 1， 也 只 有 一 个 z 记 等 于 1。z 吕 和 区 都 是 独立 
的 离散 随机 变 虹 ， 它 们 各 自 的 期 望 定 义 为 











再 [z 色 ] = P[zi = 1 起 夫 由 ] = 有 (7.66) 
BEzi] = PIz 几 = 1 da = 7 (7.67) 
其 中 ,8(n) 是 参数 向 量 8 在 EM 算法 选 代 = 次 时 的 估计 。 
， zi = zz 名 被 解释 成 对 训练 集中 第 ;个 例子 指定 概率 模型 的 专家 (六 妇 的 标号 ， 它 也 
被 看 作 一 个 离散 的 随机 变量 ， 其 期 望 值 定义 为 
再 和] = 有 [zz 几 2 名] = 本 [区 和 才 [z] = 央 计 和 = (7-68) 


式 (7.66) 至 (7.68) 中 的 ji，j 人 和 站 名 是 7.9 节 引 入 的 后 验 概率 ;对 它们 添加 上 标 i 表明 当 
前 考虑 的 样本 。 这 三 个 等 式 的 合理 性 参看 习题 7.13。 

通过 将 如 此 定义 的 缺失 数据 加 和 到 可 观察 数据 中 ， 县 大 似 钛 估计 问题 被 大 大 地 简化 了 。 
更 靖 切 地 说 ， 在 给 定 了 x 和 参数 向 量 8 的 情况 下 , 令 大 (dz 中 1x ,9 代表 由 二 和 z 名 组 成 
的 完整 数据 的 条 件 概率 密度 函数 ， 我 们 可 以 写成 


大 (358) = 三 (ee 有 (站 记 (@)) (7.69) 


其 中 大 ( 必 ) 是 在 给 定 选 择 HME 模型 专家 ( 太 罗 的 情况 下 4 的 条 件 概率 密度 函数 ， 太 (由 
Gauss 分 布 











所 (@) = 二 ea -二 (4- 癌 订 (7.70) 


给 出 。 注 意 公式 (7.69) 对 应 于 一 个 假想 实验 ， 它 含有 由 :名 表 示 的 实际 不 可 观察 的 指示 器 变 
量 。 无 论 如 何 ， 完 整数 据 问题 的 对 数 似 然 函 数 对 应 于 整个 训练 集 ， 由 


人 的 = ug[TTA(e 光 xs9]- [开本 让 cpeoteo7] 
[| 





(7.71) 
= 交 吧 家 22[ logg 筷 + logg 和 + log 友 (二 )] 
给 出 。 用 式 (7. ZEA 二 (7 71) 且 忽略 常数 - (1/2)log(2x) ， 因 此 可 以 写成 
志 (9) = 忆 妆 22[eeep + logg 纪 一 到 (< 一 ye] (7.72) 
比较 式 (7.72) 和 式 (7.65)， 通过 阁 指示 器 变量 作为 负 失 数据 加 入 到 可 观察 的 数据 集中 ， 立即 
看 出 所 获得 的 计算 上 的 好 处 : 最 大 似 然 估 计 问 题 被 解 三 为 针对 单个 专家 的 一 组 回归 问题 和 儿 
对 门 网 的 一 组 可 分 离 的 多 项 式 分 类 问题 。 
为 了 继续 应 用 EM 算法 ， 通 过 求 完整 数据 对 数 似 然 函 数 二 (98) 的 期 望 值 我 们 首先 启动 下 
步 ， 表 示 为 
@(8.6(nm)) = 号 [ 亏 (6)] 
= 忌 了 加 克 交 ]， (logetp + loge 几 -二 (4 - 并 虽 
其 中 针对 指示 器 变量 求 期 望 什 ， 因为 次 是 惟一 不 可 观察 的 变量 。 因 此 ， 用 式 (7.68) 代 人 式 
(7.73) ， 得 到 (Jordan and Jacobs,1994) 

















《7.73) 
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6) =- 疡 忆 辣 你 (ogg + ogg 只 -二 (7 名 刘 (7.74) 
该 算 污 的 区 步 要 求 对 8 求 66, 有 (n)) 的 最 大 值 。 参 数 向 量 6 由 两 组 突 触 权 值 组 成 ; -组 属 
于 门 风 击 另 一 组 局 了 专家 。 从 前 而 的 讨论 注意 下 而 的 事实 ; 
。 专家 的 突 触 权 值 决定 y 知 ， 它 也 进 和 人 ma 名 的 定义 中 。 因 此 专家 仅仅 通过 项 (十 
7 名 于 影响 表达 式 0(9.8 (zz))。 
， 门 网 的 突 甬 权 全 交 定 入 志 gt、 和 "。 门 网 仅仅 通过 项 天 名 (loggi2 + ogg 人 ) 影 
响 表达 式 0(8,8 (mn)) 的 。 
因此 ， 在 一 个 两 层 结构 的 HME 中 算法 的 M 步 简化 为 三 个 最 优化 问题 





wz(n+l) = argmin > RD(d -7 和 六 (7.75》 
“ 
ar(n+T) = am 之 妆 多 ogg 中 《7.76) 
辆 axk(n +1) = oo 中 好 立 弛 loggG (7.77) 
=1 





在 式 (7.75) 至 (7.77) 的 最 优化 中 ， 是 固定 的 ; 太 虽然 是 一 人 凑 数 的 函数 ， 但 是 并 不 对 求 
导数 。 另 外 也 要 注意 这 些 等 式 右边 的 所 有 量 都 是 指 时间 步 =” 时 的 取 值 。 

式 (7.75) 中 关于 专家 的 最 优化 是 加 权 的 最 小 平方 估计 问题 。 剩 下 的 式 (7.76) 和 (7.77) 关 
于 门 网 的 最 优化 问题 是 最 大 似 然 估 计 问 题 史 。 注 意 ， 虽 然 这 些 公 式 只 是 针对 两 层 结构 的 ， 但 
是 它们 很 容易 扩充 到 任意 多 层 的 结构 中 去 。 


7.14 小 结 和 讨论 


在 建 模 、 模 式 分 类 和 回归 问题 的 研究 中 ， 有 两 个 极端 情况 需要 考虑 : 
1. 简单 模型 ， 它 提供 对 感 兴趣 问题 的 见解 ， 但 缺乏 精确 度 。 
2. 复 未 模型， 该 模型 提供 精确 结果 但 缺乏 见解 。 
单个 的 模型 既 简 单 又 精确 也 许 是 不 可 能 的 。 在 本 章 的 第 二 部 分 ，CART 是 一 个 简单 模型 
的 例子 ， 该 模型 用 硬 决策 将 输入 空间 分 割 成 一 系列 子 空间 ， 每 个 子 空间 有 自己 的 专家 。 不 幸 
的 是 ， 硬 决策 的 使 用 带 来 一 些 信息 的 损失 ， 因 而 带 来 性 能 上 的 损失 。 在 另 一 个 方面 ， 多 层 感 
知 器 (MLP) 是 用 嵌 套 非 线性 形式 保持 训练 数据 信息 的 复杂 模型 。 但 是 ， 它 使 用 黑 盒 方 法 用 单 
个 画 数 整体 拟 合 数 据 ， 因 而 缺乏 对 问题 的 见解 。HME 模型 ， 代 表 一 种 动态 类 型 的 委员 会 机 
器 ， 是 两 个 极端 之 间 的 一 种 折 中 模型 ， 有 着 MLP 和 CART 的 共同 特征 ， 
。 HME 模型 的 结构 和 CART 类 似 ， 但 不 同 之 处 在 于 前 者 是 对 输入 空间 的 软 分 割 ， 而 后 
者 是 硬 分 割 。 
*。 HME 模型 类 似 于 MLP 使 用 嵌 套 的 非 线性 形式 ， 但 不 是 为 了 输入 - 和 输出 映射 的 目的 ， 
而 是 为 了 输入 空间 的 分 割 。 
在 本 章 我 们 强调 用 于 设计 HME 模型 的 两 种 工具 的 使 用 ; 
” 在 处 理 模型 选择 问题 的 时 候 ，CART 是 作为 结构 基础 
。 EM 算法 是 通过 选 代 计算 模型 参数 的 最 大 似 然 估计 值 来 解决 参数 估计 问题 的 。 
EM 算法 经 常 能 保证 似 然 值 向 上 (uphil) 移 动 。 因 而 ， 通 过 使 用 7,8 节 描 述 的 方式 应 用 
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CART 去 初始 化 EM 算法 ， 可 以 期 望 EM 算法 能 产生 的 泛 化 性 应 该 比 CART 算法 建立 的 初始 条 
件 产生 的 泛 化 性 能 好 。 

假如 感 兴趣 的 应 用 是 最 大 似 然 佑 计 ， 比 如 在 建 模 中 ，FEM 算法 是 重要 的 和 基本 的 。 一 个 
有 意思 的 建 模 应 用 在 Jaeobs ,jordan and Baro(1991bh) 中 描述 ， 其 中 一 个 ME 模型 被 训练 去 完成 
“什么 邦 里 "任务 。 在 这 个 任务 中 ， 模 型 被 要 求 去 决定 目标 是 什么 ， 目 标 在 可 视 区 域 的 什么 
地 方 。 在 学 习 的 过 程 中 ， 应 用 了 两 个 专家 ， 它 们 中 的 每 一 个 是 专门 承担 任务 的 一 个 方面 。 对 
于 一 个 特定 的 输入 ， 两 个 专家 都 会 产 竺 输出 。 但 是 ， 由 门 网 决定 对 和 输入 适当 的 混合 。Jacobs 
等 人 的 报告 的 成 功 结果 表明 、 决 定 任务 分 配 的 本 质 可 能 是 基于 在 任务 的 要 求 和 模型 的 计算 属 
性 之 间 的 匹配 ， 而 不 是 基于 任务 本 身 (Elman et al. ,1996)。 

这 个 讨论 以 返回 本 章 第 - .部 分 学 习 过 的 另外 一 类 委员 会 机 器 的 研究 作为 结束 。ME 和 
HME 模型 依赖 于 使 用 由 输入 信号 激活 的 门 网 来 融合 被 模型 中 的 专家 所 获得 的 知识 ; 但 是 一 
个 基于 总 体 平均 或 者 推举 的 委员 会 机 器 ， 依 赖 于 学 避 算 法 本 身 去 做 整个， 归纳 如 下 : 

1. 总 体 平均 通过 对 以 下 两 个 措施 的 结合 以 一 种 聪明 的 方式 提高 它 的 误 盖 性 能 ， 

*， 归结 为 恼 置 的 误差 减少 ， 通 过 有 意识 地 过 拟 合 委员 会 机 器 中 的 单个 的 专家 。 

， 妇 结 于 方差 的 误差 减少 ， 遂 过 在 训练 单个 专家 时 使 用 不 同 的 初始 条 件 ， 然 后 总 体 平 

均 各 自 药 输出 。 

2. 推举 通过 本 身 独 特 的 方法 来 提高 误差 性 能 。 在 这 种 情况 下 ， 只 要 求 单个 专家 的 性 能 
比 随 机 猜想 稍微 好 一 点 。 专 家 的 弱 学 习 模型 被 转化 成 强 学 习 模 型 ， 因 而 该 委员 会 机 器 的 误差 
可 以 变 得 任意 小 。 取 得 这 种 非凡 的 转化 是 通过 某 种 方式 对 输入 数据 的 分 布 进行 过 滤 ， 使 得 弱 
学 习 模 块 ( 即 专家 ) 最 终 学 到 整个 分 布 ， 或 者 如 同 白 举 那样 ， 通 过 根据 一 定 的 概率 分 布 对 训练 
翌 本 进行 重 杀 样 。 自 举 比 通过 过 滤 的 推举 的 优越 之 处 在 于 它 的 训练 例子 的 数目 是 固定 的 。 


注释 和 参考 文献 


[在 Penone(1993) 中 讨论 总 体 平均 方法 ， 其 中 包括 该 主题 的 大 量 文 献 。 有 关 这 个 主题 的 
其 他 参考 文献 包括 Wolpert(1992) 和 Hashem(1997) 。 

[2] 几 个 神经 网 络 先驱 者 建议 使 用 不 同 初 始 条 件 的 总 体 平 均 设计 委员 会 机 器 。 但 是 ,在 
Naftaly et ai.《1997) 中 给 出 的 统计 分 析 以 及 那里 描述 的 由 初始 条 件 空间 的 总 体 平 均 设 计 
训练 委员 会 机 器 的 过 程 看 来 是 其 中 第 一 次 。 在 那 篇 文章 中 ， 基 于 太阳 黑子 数据 和 能 
基 - 预测 竞争 数据 得 出 实验 结果 。 在 两 种 情况 下 对 初始 条 件 空间 求 平 均值 显示 方差 显 
著 下 降 。 
根据 Naftaty et al,(1997)， 在 用 初始 条 件 空间 的 总 体 平 均 设 计 委员 会 机 器 时 不 提倡 使 用 
流行 的 诸如 权 值 衰减 和 早期 停止 等 训练 约束 条 件 。 

[3] 推举 理论 的 主要 参考 文献 和 相关 的 实验 研究 以 时 间 为 序 或 前 或 后 可 排序 如 予 : Schapire 
(1990) ，Dmcker et 本.(1993 ,1994》，Freund(1995) ，Breiman( 1996b) ，Freund and Schapire 
《1996a,1996b,1997) ，Schapire( 1997) 和 Schapire et 臣 .(1997) 。 关 于 推举 的 三 个 基本 方法 
的 首 批 参 考 文献 分 别 如 下 : 

。 滤波 : Schapire(1990) 
。 重新 采样 ， Freund and Schapire(1996a) 
重新 加 权 ， Freund(1995) 
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[4] 


[7] 


[8] 


Jacobs，Jordan，Nowlan 和 Hinton 在 他 们 1991a 的 文章 中 首次 讨论 利用 江 合 专家 实现 复杂 
有 映射 珊 数 的 思想 。 这 个 模型 的 发 展 归 幼 于 (1)Nowlan(1990) 提 出 的 一 个 建议 ; 将 非 监督 
学 习 的 竞争 白 适 应 看 作 试 图 使 简单 概率 分 布 的 混合 拟 合 一 组 数据 ,〈2) 在 Jaeobs(1990) 
的 博士 学 位 论文 中 利用 相似 的 组 件 结构 和 不 同 的 代价 函数 所 发 展 的 思想 。 

最 大 似 然 估 计 器 有 一 些 希望 的 性 质 。 在 相当 一 般 条 件 于 可 以 证 明 下 列 渐 进 性 质 

(Kmenta, 1971) : 

( 训 最 大 似 然 估 计 器 是 相 容 的 。 令 了 (8) 表示 对 数 似 然 函数 ，g, 为 参数 向 量 4 的 分 量 : 
偏 导数 3!136, 称 为 分 值 。 我 们 说 一 个 最 大 似 然 数 估计 器 是 相 容 的 指 的 是 使 得 分 值 
37/36, 等 于 0 时 % 的 取 值 随 估计 中 样本 趋 于 无 穷 而 依 概率 收敛 到 8 的 真实 值 。 

(这 最 大 似 然 估计 器 是 浙 进 有 效 的 。 也 就 是 

lim 2 人 | = 工 对 所 有 # 


证 加 
其 中 六 为 样本 数 上 月， 8. 为 8 的 最 大 似 然 估 计 ， 而 且 到 为 fisher 信息 短 阵 的 道 矩 阵 
的 第 守 个 对 角 元 素 。Fisher 信息 矩阵 定义 为 



































aa 
引 [请 中 [ 吉 帮 ] z[5 老 
局 
J =- 5 “] 一 霉 ] 
六 有 
c[] ee 和 ] 已 爱 


其 中 1 为 参数 向 量 4 的 维 数 。 
〈 遍 ) 最 大 似 扰 画 数 估计 器 是 渐进 Causs 的 。 也 就 是 ， 当 样本 数 赵 于 无 穷 时 ， 最 大 似 然 估 
计生 的 每 一 个 元 素 为 Gauss 分 布 。 
实际 上 ， 我 们 发 现 姑 大 似 然 函 数 估计 器 的 大 样本 (渐进 ) 性 质 对 样本 数 wz 30 就 保持 得 
相当 好 。 
Newcomb(1886) 的 文章 考虑 两 个 单 变 元 Gauss 分 布 的 混合 参数 估计 ， 看 起 来 这 是 文献 报 
告 中 最 早 的 一 个 EM 类 型 过 程 的 参考 文章 ; 
“EM 算法 "的 和 名称 由 Dempster，Laird 和 Rubin 在 他 们 1977 奠基 人 性 的 文章 中 创造 的 。 在 那 
篇 文章 中 第 一 次 给 出 不 同 推广 层次 下 从 不 完整 数据 中 讨 算 最 大 似 然 估计 的 EM 算法 的 
公式 。 
Meclachlan and Krishnan(1997) 以 书 的 形式 第 一 次 统一 考虑 EM 算法 的 理论 、 方 法 和 应 用 ， 
它 的 历史 以 及 推广 。 
在 相当 一 般 条 件 下 EM 算法 计算 的 似 然 值 收敛 到 稳定 值 。Wu(1983) 给 出 EM 算法 收敛 
性 质 的 详细 考虑 。 但 是 EM 算法 并 不 总 是 导致 似 然 冰 数 的 局 部 或 全 局 最 大 值 。 在 
McLachlan and Krishnan( 1997) 撰 写 的 书 的 第 3 章 ， 给 出 两 个 不 收敛 的 例子 ， 在 一 个 例子 
中 算法 收 伍 到 鞍点 ， 而 在 田 一 个 例子 中 算 潜 收 敛 到 似 然 函 数 的 局 部 最 小 值 。 
利用 参数 向 量 的 先 验 信息 ，EM 算法 也 可 以 处 理 Bayes 最 大 后 验 (maximum a posterior， 
MAP) 估 计 ; 参看 习题 7.11。 利 用 Bayes 规则 ， 对 于 给 定 一 组 观察 x 可 以 把 参数 向 量 8 
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的 条 件 密度 函数 表示 为 

(in) - 和 

由 这 个 关系 ， 我 们 能 够 看 出 最 大 化 后 验 密度 包 (61x) 等 价 于 最 大 化 积 函 数 良 (x18)je(9)， 

为 广 (x) 是 独立 于 8 的。 概率 密度 丽 数 户 (9) 表 示 4 的 可 用 先 验 信 息 。 给 定之 后 最 

大 化 概率 密度 两 数 (81X) 提 供 参 数 向 量 9 的 最 可 能 估计 。 在 这 种 估计 的 背景 下 有 两 点 

值得 注意 : 

*” 对 68 极 大 化 记 (xl9) 袁 示 最 大 似 然 估计 ， 是 最 大 后 验 估 计 的 简化 形式 ， 简 化 的 意思 

足 不 用 先 验 信息 。 

” 使 用 先 验 信 息 与 止 则 化 是 同步 的 ， 这 (回忆 第 5 章 ) 相 当 于 光滑 的 输入 - 输出 瑞 射 。 
Waterhouse et al.(1996) 给 出 混合 专家 模型 用 于 估计 参数 的 Bayes 框架 ,那里 描述 的 
Bayes 方法 克服 了 著名 的 “过 败 合 "现象 ， 当 用 最 大 似 然 函 数 推断 时 “过 拟 合 " 导 致 具有 高 
方差 的 估计 。 

[9] 在 式 (7.76) 和 (7.77) 中 描述 的 最 大 似 然 估计 问题 可 用 一 个 有 效 算 法 ， 称 为 选 代 重新 加 
权 最 小 二 乘 (iteratively reweighted least-squares ,IRLS) 草 法 ; 关于 IRLS 算法 的 描述 可 参看 
MeCullagh and Nelder(1989) 。 


习题 
总 体 半 均 


7.1 考虑 由 天 个 专家 组 成 的 委员 会 机 器 。 第 上 个 专家 的 输入 - 输出 函数 表示 为 玉 (x)， 
其 中 x 为 输 和 人 向量， 8 = 1,2,…, 天 。 每 个 专家 各 自 输 出 的 线性 组 合 形成 总 的 输出 ， 定 义 为 


7 = 它 w7i0g 

其 中 如 是 赋值 给 5z) 的 线性 权 值 。 要 求 估计 as 的 值 使 得 y 提供 了 相应 于 x 的 期 望 输出 
过 的 最 小 平方 估计 。 给 定 训练 数据 集 i(s ,@)12,， 求 姑 的 所 需 值 解决 这 个 参数 估计 问 
题 。 

推举 

7.2 比较 通过 过 滤 的 推举 和 自 举 在 计算 上 的 优 缺 点 。 

7.3 通常 ,推举 在 弱 学 习 异 型 ( 即 具有 相对 低 泛 化 误差 率 的 学 习 模型 ) 表 现 最 好 。 但 是 ， 
假设 给 你 一 个 强 学 习 模 型 ， 即 共有 高 泛 化 误差 率 的 学 习 模 型 。 若 你 处 理 大 小 固定 的 训练 样 [89] 
本 ， 这 时 怎样 通过 过 滤 推 举 和 自 举 处 理 这 种 情况 ? 
混合 专家 
7.4 考虑 分 段 线性 任务 ， 描 述 为 







































































Fe) 他 +2x +x+3+s 着 Yi =1 
为 了 比较 ， 利 用 下 列 网 络 配置 : 

1. 多 层 感 知 器 :“10->10-~>1 网络 

2. 混合 专家 : ” 门 两 : 10 一 2 


3xs +2x6+x-3+e 车 zi =-1 
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专家 网 络 ;， 10->1 
比较 这 两 个 网 络 的 计算 复杂 性 。 
7.5 式 (7.30) 的 条 件 概率 密度 函数 描述 的 ME 模型 是 基于 标量 回归 模型 ， 其 中 误差 呈 具 
有 零 均 值 单 位 方差 的 Gauss 分 布 。 
(a) 对 于 对 应 于 多 重 回归 模型 的 ME 模型 的 更 一 般 情况 ， 重 新 构造 这 个 等 式 的 公式 ,其 
中 期 望 响应 是 具有 网 维 数 9 的 向 量 ， 而 误差 是 具有 零 均 值 和 协 方差 矩阵 为 号 的 多 元 
Gauss 分 布 。 
(b) 这 个 重新 构造 公式 的 ME 模型 和 图 7-8 所 示 的 ME 模型 如 何不 同 ? 
7.6 推导 用 于 训练 混合 专家 模型 的 随机 梯度 算法 。 
分 层 混合 专家 
7.7 〈a) 构 造 具 有 三 层 的 HME 模型 的 框图 ， 假 设 模 型 利用 二 叉 决 策 树 。 
《b) 对 (a) 中 描述 的 HME 模型 的 非 终端 节点 写 出 后 验 概 率 。 说 明 在 求 这 些 概 率 值 所 涉及 
的 计算 的 递归 性 。 
《@ 对 《a) 中 描述 的 HME 模型 ， 构 造 条 件 概率 密度 函数 的 公式 。 
7.8 讨论 HME 模型 和 径 向 枯 再 数 (RRP 网 络 的 相似 之 处 和 不 同 之 处 。 


7.9 对 于 具有 两 层 的 HME 模型 的 训练 ， 推 导 描 述 它 的 随机 梯度 算法 的 方程 。 假 设 该 模 
型 应 用 二 叉 决 策 树 。 


EM 算法 和 它 在 HME 模型 中 的 应 用 
7.10 证 明 在 式 (7.62) 中 描述 的 EM 算法 的 单调 上 升 性 质 。 为 了 这 个 推导 ， 做 下 面 的 事 : 


(a 令 
































Fr19) 
此 Cr 1 dd:0) = 和 CaTB 


代表 给 定 观察 d 和 参数 向 量 8 时 扩充 后 的 完全 数据 向 量 r 的 条 件 概率 密度 函数 ， 
而 不 完整 数据 对 数 似 然 函 数 可 表示 为 

ZL(6) = (8) ~- logk(r | d,9) 
其 中 到 (9) = logK (r18) 为 完全 数据 的 对 数 似 然 函 数 。 给 定 24， 对 r 的 条 件 分 布 取 
z(8) 的 期 望 值 ,证明 














ZL(6) = @(8,6(n)) - K(6,8Cn)) 

其 中 天 (9,8(n)) = 已 [logk(rld,6)] 

因而 证 明 

La +D) -En)= [On + D60n) -0080n) ;60n))] - 
[Ka + 1 .80n)) -KG6Cn),6(n))] 
《b) 若 8 ) 为 凸 函 数 ，r 为 随机 变量 ，Jensen 不 等 式 可 陈述 为 
忆 [g(z)] 尖 有 (五 [z]》 
其 中 王 为 期 户 算 子 ; 而 且 若 8(* ) 为 严格 凸 ， 那 么 等 式 成 立意 味 着 以 概率 1 有 、， = 
下 [we](Cover and Thomas,1991 )。 利 用 Jensen 不 等 式 证 明 
Ke + 1) 60m) -KE(6(n) Cn)) <0 

从 而 证 明 式 (7.62) 对 = 1,2,… 成 立 。 

7.11 了 EM 算法 很 容易 修改 ， 使 之 适用 于 参数 向 量 8 的 最 大 后 验 (MAP) 癸 计 。 利 用 Bayes 
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规则 ， 修 改 EM 算法 了- 步 和 M-~ 步 提供 这 个 估计 。 
7.12 对 于 给 定 任务 ， 用 FM 算法 训练 HME 和 利 

平 的 性 能 ， 直 观 上 我 们 希望 HME 超过 MLP 的 计算 复杂 件 。 

的 论证 。 








汉 1 











名 传播 算法 训练 MTP 达到 相似 水 
给 出 支持 或 反对 这 个 陈述 合理 性 


7.13 判 断 式 (7.66) 至 (7.68) 描 述 的 指示 器 变量 和 相应 的 后 验 概率 关系 的 合理 性 。 





7.14 假设 期 望 响 应 d 呈 标 量 ， 式 {7.75) 描 述 图 7-11 
小 平方 最 优化 。 当 期 望 响应 为 多 维 时 怎样 修改 这 种 关系 ? 








PHME 模型 的 专家 网 络 的 加 权 最 
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第 8 章 ， 主 分 量 分 析 


8.1 简介 


神经 网 络 的 - -个 重要 特征 就 是 它们 具有 向 藉 境 学 习 并 通过 学 习 改善 本 身 性 能 的 能 力 。 在 
前 而 是 章 中 主要 讨论 了 监督 学 习 的 算法 ， 外 部 教师 为 它们 提供 一 组 有 意义 的 目标 。 目 标 采 取 
期 户 答 人 - 输出 映射 的 形式 ， 要 求 网 络 对 这 个 映射 进行 逼近 。 在 本 章 和 后 面 的 三 章 中 ,我们 
学 习 自 组 织 学 习 (self-organized leaming) 吉 无 监督 学 习 ( unsupervised leaming)。 自 组 织 学 习 的 目 
的 是 为 了 发 现 输入 数据 中 的 重要 模式 和 特征 ， 面 这 些 发 现 是 无 教师 的 。 为 了 这 样 做 ， 系 统 需 
要 提供 一 组 局 部 性 的 规则 ， 这 些 规则 能 使 它 学 会 计算 具有 特殊 期 望 性 质 的 输入 - 输出 映射 。 
术语 “局 部 "意味 突 触 权 值 的 改变 只 与 邻近 单元 的 状态 有 关 。 用 于 自 组 织 学 习 的 神经 网 络 结 梅 
模型 比 用 于 监督 学 习 的 模 卉 更 接近 生物 神经 系统 模型 。 这 并 不 奇怪 ， 因 为 网 络 组 织 的 过 程 是 
脑 组 织 过 程 的 基础 。 

自 组 织 结构 有 各 种 各 样 的 形式 。 例 如 ， 它 可 能 由 一 个 输入 ( 源 》 层 和 输出 (表示 ) 层 组 成 ， 
输入 层 到 输出 层 之 间 有 前 馈 连 接 ， 和 输出 层 各 单元 间 有 侧 向 连接 。 另 一 个 例子 是 前 合 网 络 ， 由 多 
层 组 成 ， 其 中 自 组 织 是 以 层 至 层 为 基础 进行 的 。 在 上 述 两 个 例子 中 ,学 习 过 程 都 是 按照 预定 的 
规则 和 对 输入 (激活 ) 模 式 的 响应 重复 修改 系统 中 的 所 有 突 触 权 值 ， 直 到 形成 一 种 最 终 设置 。 

本 章 只 讨论 基于 Hepb 学 习 的 自 组 织 系统 ， 主 要 集中 于 主 分 量 分 析 (Principal components 
analysis) ， 这 是 统计 模式 识别 和 信号 处 理 中 进行 数据 压缩 通用 的 一 种 标准 方法 。 


本 章 的 组 织 


本章 的 材料 纽 织 如 下 。 在 8.2 节 用 定性 论据 描述 自 组 织 系统 的 基本 原理 。 随 后 在 8.3 节 
中 介绍 主 分 量 分 析 ， 这 也 是 本 章 其 余部 分 讨论 的 自 组 织 系统 的 基础 。 

在 掌握 基本 背景 材料 后 ， 接 下 来 学 习 一 些 具体 的 自 组 织 系 统 。8.4 节 描述 由 单个 神经 元 
组 成 的 简单 系统 ， 它 以 自 组 织 方式 抽出 第 一 个 主 分 量 。8.5 节 将 讨论 更 复杂 的 系统 ， 它 为 具 
有 前 馈 连 接 的 单 层 网 络 形式 ， 通 过 对 以 前 简单 系统 的 扩展 ， 抽 出 所 有 的 主 分 量 。 在 8,6 节 将 
给 出 一 个 关于 图 像 编 码 的 具体 实例 演示 这 个 过 程 。8.7 节 将 阐述 另 一 个 具有 相似 功能 的 自 组 
织 系统 ， 这 个 系统 更 加 复杂 ， 因 为 它 包 含 侧 向 连接 。 

在 8,8 节 中 给 出 利用 神经 网 络 进行 主 分 量 分 析 的 各 种 算法 的 分 类 。 随 后 8.9 节 在 数据 分 
类 的 基础 上 将 算法 分 成 自 适应 方法 和 集中 式 方法 。 

在 8.10 节 描述 主 分 量 分 析 基 于 内 积 核 思 想 的 非 线性 形式 ， 内 积 核 按 照 第 6 章 的 支持 向 
草 机 模型 中 讨论 的 Mereer 定理 定义 。 

在 8.11 节 以 对 主 分 量 分 析 的 一 些 最 后 思考 结束 本 章 。 


8.2 自 组 织 的 一 些 直观 原则 
像 前 面 提 到 的 那样 ， 自 组 织 ( 无 监督 ) 学 习 按照 预定 的 规则 和 对 激活 模式 的 响应 重复 修改 
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神经 网 络 的 突 触 权 值 ， 于 到 形成 一 种 最 终 设置 。 当 然 ， 问 题 的 关键 是 ， 怎 样 从 自 组 织 中 形成 
一 个 有 用 的 设置 。 答 案 本 质 上 来 自 于 下 认 的 观察 (Turing,19S2) ， 

局 部 相互 作用 可 以 导致 整体 的 序 。 
这 个 观察 具有 重要 意义 ; 它 适 用 于 脑 利和 人工 神 经 网 络 。 尤 其 ， 网 络 由 邻 钊 经 元 之 间 许 多 最 初 
随机 的 局 部 作用 ， 能 够 结合 成 整体 有 序 的 状态 ， 并 最 终 在 空间 模式 或 时 间 节 奏 上 形成 连贯 行 
为 ; 这 些 是 自 纽 织 的 本 质 。 

网 络 组 织 在 两 个 不 同 层次 的 发 牛 ， 两 个 层次 之 问 以 反馈 环 的 形式 租 互 作用 。 这 两 个 层次 











为 : 

。 活动 性 。 由 给 定 网 络 对 输入 信号 的 响应 产生 某 种 活动 模式 。 

。 连接 性 。 由 于 突 触 可 塑性 ， 网 络 连接 强度 ( 突 触 权 值 ) 由 于 响应 活动 模式 中 的 神经 信 

号 得 以 修改 。 

为 了 达到 网 络 的 自 组 织 (而 非 稳定 )， 在 突 触 权 值 变化 和 活动 异 式 变化 之 间 的 反馈 必须 是 
正 的 。 因 此 ， 可 以 得 到 自 组 织 系统 的 第 一 个 基本 原则 (von der Malsburg,1990a) : 

原则 1 工 罕 触 权 值 的 修改 趋向 于 自 增强 。 

罕 触 权 值 的 妖 改 必须 基于 局 部 可 用 信号 ， 即 前 突 触 和 后 突 触 的 信号 ， 自 增强 过 程 被 这 种 
要 求 所 限制 。 自 增强 和 局 部 性 的 要 求 确定 这 样 的 机 制 ， 强 的 突 触 兴致 前 罕 触 信号 和 后 突 触 信 
号 相 一 致 。 通 过 这 种 一 致 性 又 使 突 触 的 强度 增加 。 这 里 所 描述 的 机 制 实际 上 是 Hebb 学 习 假 
设 的 重 述 。 

为 了 使 系统 稳定 ， 必 须 存 在 对 “有 限 " 资 源 ( 例 如 输 人 的 数量 和 能 量 资源 ) 的 一 些 竞争 形 
式 。 具 体 地 ， 网 络 中 的 一 些 罕 触 强度 增加 必须 以 其 他 突 触 的 减 来 补偿 。 因 此 ， 只 有 “成功 ” 
的 罕 触 才能 生长 ， 而 不 成 功 的 将 减弱 并 最 终 消失 。 从 这 个 观察 结果 可 得 到 自 组 织 的 第 二 个 原 
由 (von der Malsburg,1990a) : 

原则 2 资源 的 有 限 导致 突 触 间 竞 争 ， 从 而 导 和 分 牺牲 其 他 突 触 来 选择 最 活跃 ( 即 最 适合 ) 
的 生长 突 触 。 

罕 触 的 可 好 性 也 使 这 一 原则 成 为 可 能 。 

对 下 一 步 的 观察 ， 我 们 注意 单个 突 触 不 能 有 效 地 产生 满意 的 结果 。 为 了 达到 上述 效果 ， 
需要 一 组 突 触 间 的 协作 ， 而 这 些 突 触 聚集 于 一 个 特定 的 神经 元 旧 带 有 足够 强大 的 相同 信号 以 
激活 该 神经 元 。 因 此 我 们 可 以 抽象 出 第 三 个 白 组 织 原则 (von der Malsburg,1990a) : 

原则 3” 突 触 权 值 的 修改 趋向 于 协作 。 

尽管 网 络 中 存在 竞争 ， 活 跃 突 甬 的 出 现 能 够 增强 其 他 突 触 的 适应 。 这 种 协作 形式 的 出 现 
可 能 归 因 于 突 触 的 可 塑性 ， 或 归 因 于 外 部 环境 中 出 现 适 宜 的 条 件 同 时 刺激 前 突 触 神经 元 。 

上 而 所 描述 的 三 个 自 组 织 原则 只 与 网 络 本 身 有 关 。 然 而 为 了 自 组 织 学 习 执 行 有 用 的 信息 
处 理 功能 ， 环 境 提供 给 网 络 的 激活 模式 中 必须 存在 兄 余 {redundancy)。 爷 余 问 题 将 在 第 10 章 
Shannon 信息 论 框架 中 讨论 。 现 在 足以 提出 自 组 织 学 习 的 最 后 一 个 原则 如 下 (Barlow,1989) : 

原则 4 激活 模式 中 次 序 和 结构 表示 宛 余 信息 ， 神 经 网 络 以 知识 的 形式 得 到 这 些 宛 余 信 
息 ， 这 是 自 组 织 学 习 的 必要 前 所。 

我 们 可 以 从 统计 参数 的 观测 中 获得 这 些 知 识 ， 例 如 ， 从 输入 数据 的 均值 、 方 差 和 相关 算 
阵 。 
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关于 自 组 织 学 习 的 原则 ! 至 原则 4 为 本 章 讨 论 主 分 量 分 析 和 下 一 章 描述 Kohonen 自 组织 
映射 的 自 适 应 算法 提供 神经 生物 学 的 基础 。 这 些 原则 在 其 他 许多 受 神 经 生物 学 考虑 激励 的 自 
组 织 模型 中 也 被 采用 -。 值得 一 提 的 这 样 一 种 模型 是 哺 
屯 动 物 视觉 系统 的 Tinsker 模型 (Tinsker,1986)。 








自 组 织 的 特征 分 析 


视觉 系统 中 的 信息 处 理 是 分 阶段 的 。 具 体 地 ,一 
些 简单 的 特征 如 对 比 度 和 边缘 方向 是 在 系统 的 早期 阶 
段 分 析 的 ， 而 更 精致 复 打 的 特征 则 在 后 期 阶段 进行 分 
析 。 图 8-1 表示 与 视觉 系统 相似 的 模型 网 络 的 整体 结 
构 。 在 Linsker 的 模型 中 ， 图 8-1 的 网 络 神经 元 组 织 成 
二 维 层 ， 从 一 层 到 下 一 层 具有 局 部 前 镍 连 接 。 每 个 神 
经 元 只 接受 前 ` 层 位 于 . -个 覆盖 区 内 有 限 数 月 神经 元 
的 信息 ,此 区 域 称 为 接受 威 (receptive field)。 网 络 接 
受 域 在 突 触 的 形成 过 程 中 起 关键 作用 ， 因 为 它们 使 一 
层 中 的 神经 元 对 前 一 层 神经 活动 的 空间 相关 性 的 反应 






































成 为 可 能 。 假 设 下 面 两 个 结构 特征 
上 . 在 整个 神经 元 形成 过 程 中 ， 一 纪 突 击 连 接 被 选 。。 层 层 层 
择 ， 其 位 置 就 固定 了 。 “ “ 5 
2. 每 个 神经 元 邦 是 一 个 线 忻 组 合 只 。 图 81 自 适 应 网 络 组 件 布局 


模型 结合 Hebb 型 帘 触 修改 的 协作 和 竞争 学 习 的 方面 使 得 网 络 输 出 最 优 区 分 葵 入 总体， 
这 需要 通过 自 组 织 学 习 从 一 层 到 一 层 的 基础 上 处 理 。 即 学 习 过 程 在 处 理 下 一 赃 之 前 多 许 全 而 
形成 该 屋 自身 的 白 组 织 特征 - 分 析 (feature-analyzing) 特 性 。 在 Linsker(1986 ) 中 模拟 结果 与 猫 
和 狼 子 的 视觉 形成 的 早期 具有 非常 相似 的 性 质 。 认 识 到 视觉 系统 的 高 度 复 杂 性 ， 面 Linsker 
考虑 的 非常 简单 的 模型 能 形成 相似 的 特征 - 分 析 神 经 元 ， 这 的 确 值得 注意 。 此 点 并 非 意 味 着 
哺乳 动物 的 视觉 系统 的 特征 - 分 析 神 经 元 形成 的 方式 与 上 面 的 Linsker 模型 描述 的 方式 完全 
相同 。 相 反 . 它 只 能 说 明 按 照 Hebb 学 习 规 则 形成 突 触 权 值 ， 再 由 这 种 相对 简单 的 层 状 网 络 
就 可 产生 这 种 结构 。 

但 是 ， 在 本 章 中 我 们 主要 的 兴趣 是 主 分 量 分 析 利 利用 基于 Hebb 学 习 的 自 组 织 系统 怎样 
实现 它 。 
8.3 主 分 量 分 析 


在 统计 模式 识别 中 ， 一 个 常见 的 问题 就 是 特征 选择 或 特征 提取 。 特 征 选择 是 指 将 数据 空 
间 变 换 到 特征 空间 的 过 程 ， 在 理论 上 与 原始 数据 空间 具有 相同 的 维 数 。 然 面 ， 我 们 希望 设计 
一 种 变换 使 得 数据 集 由 维 数 较 少 的 “有 效 "特征 来 表示 ， 而 不 减少 原始 数据 所 包含 的 内 在 信息 
内 容 ; 换 名 话说， 数据 集 进 行 了 维 孝 压缩。 具体 来 说 ， 假 设 有 一 个 严 维 的 向 量 x， 和 希望 压缩 
到 ! 维 ， 其 中 z< mm。 如 果 我 们 简单 截断 X， 所 带 来 的 均 方 误 差 等 于 舍 掉 的 各 分 量 的 方差 之 
和 。 因 此 提出 下 面 的 问题 : 是 否 存在 一 个 可 遂 的 线性 变换 T， 使 得 对 TYx 的 截断 在 均 方 误差 
意义 下 最 优 ? 显然 要 求 变换 后 的 某 些 分 量具 有 较 低 的 方差 。 主 分 量 分 析 (principal components 
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analysis， 在 通信 理论 中 也 叫 Karhunen-Lopve 变换 ) 能 最 大 程度 地 减少 方 凑 ， 并 因而 是 正确 的 选 
择 。 在 本 章 我 们 讨论 基于 Hebb 学 习 算法 来 完成 数据 向 量 的 主 分 量 分 析 - 。 
令 习 为 友 示 环境 的 mm 维 随机 向 曹 。 假 兴 尺 均值 为 零 ， 即 
瑟 X] =0 
其 中 下 是 统计 学 习 中 的 期 望 运 算 符 。 如 果 和 的 均值 不 是 0。 在 执行 分 析 之 前 先 减 去 其 均值 。 
令 生 表示 严 维 单位 向 量 , 买 在 其 上 投影 。 这 个 投影 被 定义 为 向 量 尺 和 和 的 内 积 ， 表 示 为 
4 = X7q = grX 《8.1) 





油 足 约束 条 件 

jd =《q9”=1 《8.2) 
投影 4 也 是 随机 变量 ， 其 均值 和 方差 与 允 的 统计 有 关 。 出 假设 X 的 均值 为 0、 推 知 4 的 雹 
值 也 为 0: 











F[4] = qSfX] = 0 











生 的 方差 与 其 均 方 值 相同 ， 订 写 为 
9 = 瑟 4 如 ] = EL(qX)CX7q] = q7BE[XX7]q = drRq 《8.3) 
王 xX 凡 和 插 阵 妈 是 随机 向 量 习 的 自 相关 答 阵 ， 正 式 定义 为 向 量 买 和 它 昌 己 的 外 积 的 期 望 ， 
表示 为 














及 = 有 [XX7] (8.4) 
我 们 观察 到 相关 抢 阵 R 尽 对 称 的 ， 即 
R7 -= 及 (8.5) 
由 这 个 性 质 知 ,如果 s 和 为 任意 严 x1 向 量 ,那么 
arRb = b7Ra (8.6) 
由 式 (8.3) 和 看 出 ， 投 影 4 的 方差 中 是 单位 向 量 的 机 数 ， 可 以 写 为 
Mg == gRq (8.7) 
基于 此 我 们 可 以 认为 民 g) 为 方差 探 针 (varianee probe) 。 


主 分 量 分 析 的 特征 结构 


下 面 讨论 的 问题 是 在 欧 儿 里 德 范 数 的 约束 条 件 下 ， 找 出 单位 向 景 4 沿 民 四 所 具有 的 极 
(extremal ) 值 或 稳定 (stationary) 值 (局 部 最 大 或 最 小 ). 这 个 问题 的 能 决 依赖 于 输入 向 量 的 相关 
忽 阵 R 的 特征 结构 。 如 果 9 为 单位 向 量 使 得 方差 探 针 由 9) 具 有 极 值 ， 那 么 对 单位 向 量 4 任 
意 小 的 扰动 和 ， 我 们 发 现 直 到 3q 的 一 阶 项 将 有 
民 Q+ sg) = 以 中 (8.8) 
现在 ， 从 式 (8.7) 给 出 的 方 盖 探 针 定 义 ， 我 们 丰 
Mgq+sg) = (q+ag)7Rd+ 8q) = 9 Rq+203q)7Rq + (ig)7Riq 
在 第 2 个 等 式 中 ， 已 经 利用 式 (8.6)。 忽 略 项 (39d) 7R5q 并 利用 式 (8.7) 的 定义 ， 可 以 写成 

gg+3q) = qdRq + 208q)7Rq = 从 9) + 2(03q)7Rq (8.9) 
因此 将 式 (8.8) 代 人 式 (8.9) 得 





(3qg)"Rq = 0 《8.10) 
对 q 而 言 ， 任 意 扰动 0 是 不 允许 的 ;相反 对 扰动 进行 限制 ， 仅 使 Q+ 8q 的 欧 见 里 德 范 
数 为 1! 的 扰动 是 允许 的 ， 即 
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lgq+sal =1 
或 等 价 地 
(g+iq)7dq+3qg) =1 

困 此 ， 根 据 式 (8.2)， 我 们 要 求 对 8q 的 一 阶 项 有 
(8q)7q = 0 (8.11) 
这 意 蛛 着 ， 扰 动 39 必须 与 9 正 交 ， 央 此 仅 在 q 的 垂直 方向 上 变化 是 允许 的 。 

通常 单位 向 量 g 在 物理 意义 上 是 无 量 网 的 。 从 而 如 果 结合 式 (8.10) 和 (8,11)。 那么 我 们 
必须 在 式 (8.11) 中 引信 一 个 比例 因子 使 得 它 和 相关 短 阵 R 中 的 元 素 有 相同 的 量 网 。 于 是 可 
以 守成 
































(3g)"Rq - Xiaqg)"q = 0 
或 等 价 地 (59q)7(Rq -9g) =0 《8.12) 
式 (8.12) 成 立 的 充 要 条 件 为 
Rq = xd (8.13) 

这 个 方程 控制 单位 向 量 q 使 得 方差 探测 值 以 q) 有 极 值 。 

式 (8.13) 被 认为 是 特征 值 问 题 .通常 在 线性 代数 中 磋 到 (Stang,1980 )。 仅 对 特殊 的 入 
值 问题 用 非 平 上 及 解 ( 即 qz 人 ， 和 被 称 为 相关 矩阵 及 的 煌 征 值 ， 对 应 的 q 被 称 为 特征 向 量 。 
相关 和 矩阵 的 特征 值 必须 是 非 负数 。 假 设 它 的 特征 值 互 不 相同 ， 则 对 应 的 特征 向 量 是 惟一 
的 。 令 mxm 严 矩阵 及 的 特征 值 为 N , ，…,X。 ， 对 应 的 特征 向 量 分 别 是 @ ,g，…,qw 。 我 
们 可 写成 








Rqi = Ng， 了 = 1.2，…m 严 《8.14》 
令 相应 特征 值 按 降序 排列 ， 即 
和 > > 《8.1S) 
这 样 N = jw。 令 对 应 的 特征 向 量 用 于 构成 一 个 严 x 严 矩阵 
Q = [qg ,时 ggn] (8.16)》 
我 们 可 以 结 会 式 (8.14) 中 的 严 个 方程 为 一 个 方程 组 : 
BRQ = QA 《8.17) 
其 中 A 为 及 的 特征 值 构成 的 对 角 殉 阵 ， 即 
入 = diag[N an] 《8.18) 
和 手 阵 Q 是 正 交 ( 丁 ) 纸 阵 ， 意 味 着 它 的 列 向 量 ( 即 有 的 特征 向 量 ) 满 足 正 性 交 条 件 : 
， 1I， 了 = 1 
gg = [ 7 (8.19) 
式 (8.19) 要 求 不 同 的 特征 值 。 等 价 地 ， 可 写成 
QQ=I 
下 此 可 以 推导 出 矩阵 Q 的 斤 矩阵 与 它 的 转 置 矩 阵 相 同 ， 表 示 为 
QQ =Q (8.20) 
这 意味 普 可 以 重 写 (8.17) 为 众所周知 的 正 交 相似 变换 形式 
QrRQ = A (8.21) 
或 展开 为 
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qrRq, = 攻 1 (8.22) 
式 (8.21) 的 正 交 相似 ( 酉 ) 变 换 将 相关 矩阵 R 变 成 特征 值 对 角 阵 。 相 关 抵 阵 R 可 以 用 特征 值 


和 特征 向 苦 表 示 为 





R = Nd (8.23) 
这 称 为 谱 定 理 。 对 所 有 守 ， 外 积 gd 的 秩 为 1。 
式 (8.21)》 和 (8.23) 是 相关 和 矩阵 及 的 特征 分 解 (eigendccomposition) 的 两 个 等 价 表示 。 
主 分 量 分 析 和 矩阵 及 的 特征 分 解 从 根本 上 来 说 是 一 致 的， 只 是 从 不 同 的 方面 观察 问题 。 
从 式 (8.7) 和 (8.23) 可 以 看 出 方差 探 针 和 特征 值 的 确 相 等 ， 表 示 为 
只 @) = 入 了 = 下 22, 严 (8.24) 
现在 ， 从 主 分 量 分 析 的 特征 结构 中 我 们 可 以 概括 两 个 重 此 发 现 : 
1. 零 均 值 的 随机 向 量 买 的 相关 矩阵 及 的 特征 向 量 定义 为 单位 向 量 gg ， 代 表 主 方向 ， 党 
着 它们 方差 探 针 叱 @ ) 取 得 极 值 。 
2. 相应 的 特征 值 定 义 方 差 探 针 gf ) 的 极 值 。 
基本 数据 表示 
令 数 据 向 量 x 为 随机 向 量 和 的 实现 。 
由 于 单位 向 量 g 有 六 个 可 能 的 解 ， 我 们 发 现 数据 向 量 x 有 亚 个 可 能 的 投影 需要 考虑 。 
特别 地 ， 从 式 (8.1) 我 们 注意 
= 本 和 = qi， 了 = 1,2， 亚 (8.25) 
其 中 必 是 x 在 单位 向 景 四 所 表示 的 主 方向 上 的 找 影 。w 称 作 主 分 量 ， 和 x 具有 相 回 的 物理 
量 纲 。 式 (8.25) 的 公式 被 看 作 是 一 个 分 析 。 
为 了 从 投影 mw 中 准确 重建 原始 数据 问 基 x， 我 们 可 以 采取 下 面 的 步骤 。 首 先 ， 将 一 组 
投影 jw1 = 1,2,……, 阅 | 组 合成 一 个 单一 的 向 量 ， 表 示 为 
a = [ayoyon] = [全 ro ”= Qx (8.26) 
接着 我 们 在 式 (8.26) 的 两 边 左 乘 矩阵 @， 再 利用 式 (8.20) 的 关系 。 因 此 ， 原 始 数据 向 量 x 可 
重建 如 为 





























x = Qa = oa 《8.27) 


它 可 被 看 合成 公式 。 在 这 种 意义 上 , 单位 向量 q 表示 数据 空间 一 组 基 。 确实 ， 式 (8.27) 只 是 
一 个 坐标 变换 ， 根 据 该 变换 数据 空间 中 的 点 x 变换 到 特征 空间 的 点 as 
维 数 减 缩 

从 统计 模式 识别 的 观点 看 ， 主 分 量 分 析 的 实际 价值 在 于 它 为 维 数 减 缩 提 供 有 效 的 方法 。 
具体 地 ， 遂 过 丢弃 式 (8.27) 中 方差 小 的 项 ， 保 留 方差 大 的 项 ， 可 以 减少 有 效 数据 表示 所 岩 的 
特征 的 数量 。 令 N ,) ，…, 表示 相关 矩阵 有 的 前 个 最 大 特征 值 。 我 们 截断 式 (8.27) 中 的 。 
项 后 面 的 晨 开 式 可 以 得 到 数据 向 量 X 的 近似 





王 分 醒 分 闻 





全 |, 二 瑞 (8.28) 


@ 


对 给 定 的 原始 数据 向 量 x， 可 以 用 式 (8.25) 计 算得 到 保留 在 式 (8.28) 中 的 主 分 量 如 下 ， 















































ra1 [gf 
as 昌 
.|=| ，|x， 了 之 现 《8.29) 
Lay- 了 
从 全 " 到 局 的 线性 投影 ( 即 从 数据 空间 到 
特征 空间 的 映射 ) 是 对 数据 向 量 x 近似 表 。。 答 入 (数据 ) 内 量 。 给 可 失主 分 时 向 
示 的 编码 器 ， 如 图 8-2a 所 示 。 相 应 地 ， 从 三 开 2 
民 ' 到 民 " 的 线性 投影 ( 即 特征 空间 到 数据 2 Easz 相 玫 Pa 和 
空间 的 上 映射) 表示 为 对 原始 数据 向 基 x 近 时 ae 
似 重 构 的 解码 器 ， 如 图 8-2b 所 示 。 注 意 式 
(8.28)、(8.29) 中 描述 的 优势 ( 即 最 大 ) 特 对 
征 值 N ,> ，…, 和 Xi 并 不 参加 计算 ， 它 们 只 是 
分 别 决定 编码 器 和 解码 器 所 使 用 的 主 分 量 。。 主 分 量 向 量 重建 数据 向 量 
的 数量 。 a 钟 古 红 丰 
到 近 误 差 向 量 。 等 于 原始 数据 向 量 x | “| maa 史 | wan al 了 
各 近 数据 向 量 允 的 差 ， 即 四 站 
e = 和 -名 《8.30) 日 
将 式 (8.27) 和 (8.28) 代 入 式 (8.30) 得 
am 图 8-2 二 分 量 分 析 的 两 阶段 说 明 
= 2 《8.31) 0 
误差 向 量 e 和 盈 近 数据 向 量 六 是 正 交 的 ， 。 
如 图 8-3 所 示 。 换 名 话说， 信 和。 的 内 积 < 
为 零 。 利 用 式 (8.28) 和 (8.31) 这 个 性 质 可 
以 表示 如 下 ? 
了 忆 上 图 8-3 向 量 x、 它 的 重建 形式 久 和 
2 误 关 向 量 e 的 关系 示例 
= 立 ad =0 (8.32) 
其 中 我 们 利用 了 式 (8.19) 的 第 二 个 条 件 。 式 (8.32) 称 作 正 交 性 原理 。 
由 式 (8.7) 和 (8.22) 的 第 一 行 ， 数 据 向 量 X 的 m 个 分 量 的 总 方差 为 
袜 ， =- yN (8.33) 
其 中 是 第 ) 个 圭 分 量 m 的 方 莽 。 逼近 向 量 半 的 过 个 元 素 的 总 方差 为 
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Zoo = > (8.34) 


在 有 逼 近 误 差 疝 量 x- 冯 中 的 (7 - mm) 个 元 素 的 总 方差 为 


特征 值 M ，…,》。 是 相关 卸 阵 R 的 特征 值 中 最 小 的 (m - 个 特征 值 ; 在 
多 的 式 (8.28) 中 丢弃 了 它们 所 对 应 的 项 。 这 些 特 征 值 越 接近 0， 降 维 (对 x 进行 


2 


1 1 





























导致 的 结果 ) 后 保存 原始 数据 中 的 信息 量 就 越 有 效 。 因 此 ， 为 了 对 输入 数据 进行 维 数 缩 碱 ， 
我 们 计算 输入 喜 据 向 量 的 相关 给 阵 及 的 特征 值 和 特征 向 量 ， 然 后 将 原始 向 量 投 影 到 由 个 人 
势 特 征 值 对 应 的 特征 向 量 生 成 的 子 空间 。 这 种 数据 表示 方法 通常 称 为 子 空间 分 解 (0ja, 


1983) 。 


例 8.1 双 变 量 数 据 集 ”为 了 说 明 主 分 量 分 析 的 应 用 ， 考 虑 双 变 旦 (二 维 ) 数 据 集 的 例 
子 ， 如 图 8-4， 其 中 假设 两 个 特征 轴 的 标 度 近 似 相同 。 图 中 水 平 轴 和 答 直 轴 表 未 数据 集 的 自 





然 坐标 轴 。 标 号 为 1 和 2 旋转 弛 

















i 轴 是 应 用 这 个 数据 集 的 主 变量 分 析 产 生 的 结果 。 从 图 8-4 











可 以 看 出 数据 集 投影 到 1 号 轴 上 抓 住 了 数据 的 主要 特征 ， 即 具有 双 峰 ( 即 在 它 的 结构 上 有 了 两 
个 聚 类 ) 的 特点 。 的 确 ， 数 据 投影 到 轴 1 的 方差 比 投影 到 别 的 轴 上 的 大 。 相 反 ， 当 峡 射 到 轴 
2 时， 数据 内 在 的 双 峰 特征 完全 模糊 。 


了 




















人 2 和 各 8 


图 8-4 二 维 平 面 的 -组 数据 ， 它 们 投影 到 两 个 轴 1 和 2 的 密度 图 
投影 到 轴 1 有 最 大 方差 清楚 表明 数据 的 双 峰 或 阳 类 特征 


从 这 个 简单 的 例子 中 可 以 得 到 一 个 重要 的 结论 。 意 然 ， 带 有 又 类 结构 的 数据 集 在 带 有 水 


平 轴 和 垂直 轴 的 二 维 平面 




















上 很 明显 ， 但 在 实际 中 并 不 各 是 这 样 。 在 更 一 般 的 高 维 数 据 集 


中 ， 可 以 想像 数据 固有 的 涌 类 结构 被 隐藏 ， 要 趟 看 到 它 必须 进行 与 主 分 量 分 析 相 似 的 统计 分 


析 (Linsker,1988a ) 。 
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8.4 基于 Hebb 的 最 大 特征 滤波 器 


自 组 织 神 经 网 络 的 行为 和 主 分 量 分 析 的 统计 方法 之 间 存 在 密切 的 联系 。 在 本 节 ， 我 们 将 
通过 建立 一 个 著名 的 结果 来 证 实 这 个 关系 : 突 触 权 值 采用 Hebb 自 适应 规则 的 单个 线性 神经 
无能 够 形成 关于 输入 分 布 第 一 个 主 分 量 的 五 辐 
过 滤器 (0ja,1982) 。 

为 了 继续 这 个 证 明 ， 先 考虑 如 图 8- Sa 
所 示 的 简单 模型 。 该 模型 在 模型 输出 为 它 
的 输入 的 线性 组 合 这 个 意义 下 是 线性 的 。 
神经 元 通过 亚 个 分 别 具 有 权 值 zw ,zz ，-..， 




















tw 的 突 触 来 接 收 普 个 输入 信号 六 ， 0 
4, 和 ， 模 型 的 输出 结果 y 为 引 
Y = 辣 (8.36) 大 加 ER 


注意 这 里 描述 的 情形 ， 我 们 仪 处 理 单个 神 
经 元 ， 所 以 不 需要 用 双 下 标 表 示 赔 络 突 触 
权 值 。 

根据 Hebb 学 习 的 假设 ， 当 前 突 触 信 
号 习 和 后 突 触 信号 y 一 致 时 ， 突 触 权 值 随 
峙 间 逐 步 加强 。 具 体 地 ， 可 写成 
amd+T1) = aa)+Dy(CnuCn)， 
《8.37) 图 8-5 最 大 特征 涉 波 器 信号 流 图 表示 
梧 式 (8.36) 的 图 日 式 (8.40) 和 (8.42) 的 图 








了 = 1 2 和 下 
中 = 表示 离散 时 间 ， 习 是 学 习 率 参数 。 
但 是 ， 这 个 学 习 规 则 的 基本 形式 会 导致 突 触 权 值 zw 无 限 地 增 大 ， 这 在 现实 上 是 不 能 接受 的 。 
在 罕 触 权 值 自 适 应 学 习 规 则 中 采用 某 种 程度 的 饱和 度 或 归 一 化 ， 可 以 解决 这 个 问题 。 利 用 归 
一 化 方法 具有 在 神经 元 的 突 触 权 值 问 由 于 有 限 资源 导致 竞争 的 效果 ， 从 自 组织 的 原则 2， 这 
是 稳定 性 的 关键 。 从 数学 上 来 考虑 ， 方 便 的 归 一 化 形式 描述 如 下 (Oja,1982) ， 

好 (Pa) + Tom) 

( 束 人 [Ca) + 人 (的 (0 ) 
其 中 分 母 的 求 和 是 针对 神经 元 的 所 有 突 扔 权 值 。 假 设 学 习 率 参 数 ! 很 小 ， 可 以 将 式 (8.38) 展 
开 成 的 寡 级 数 形式 ， 所 以 写成 
w+l)= 刀 (ad+ayCnLzn -nao(n]+oO(T7) 《8.39) 
其 中 0( 乎 ) 项 表示 平 或 让 高 次 部 分 。 因 为 很 小 ， 可 以 忽略 这 一 项 ， 因 此 近似 式 (8.38) 到 Y 
的 一 阶 项 如 下 : 

















(8.38) 





af +1) = 




















at+l) = +Ty7Ca)[zCa) yan)] (8.40) 
式 (8.40) 右 端的 项 y(n)x,(a) 表 示 突 触 权 值 通常 的 Hebb 修改 变 ， 这 符合 自 组 织 原则 !1 描绘 
的 自 放 大 效果 。 依 据 原则 2， 该 式 中 含有 负 项 - y(n) w,(n) 导 致 稳定 ; 它 修 改 输入 ”%(z) 成 
一 种 依赖 于 相应 突 触 权 值 w (=) 和 输出 y(m) 的 形式 ， 表 示 为 




















405 























294 雾 9 但 





(8) = 克 (E) -YY(Cn)zofm) 《8.41) 
xn) 可 以 视 为 第 ;个 突 触 的 有 效 输 入 。 我 们 可 以 由 式 (8.41) 的 定义 重 写 式 (8.40) 的 学 习 规 
则 如 下 : 





2 有 + 1) = Cn) + 和 (xia) (8.42) 
神经 邢 的 整体 操作 可 由 捧 个 信号 流 图 的 组 全 来 表示 ， 如 图 8-5 所 示 。 根 据 式 (8.36) ， 图 
8-5a 的 信号 流 图 表明 输出 y(m) 依 顿 于 权 值 mW (nj ,za(n) zw(n)。 图 8-5b 的 信 导 流 图 提 
供 式 (8.41) 和 (8. 和 2) 的 图 像 ， 图 中 的 传递 参数 z-! 表 示 单 位 延迟 操作 符 。 在 图 8- 5a 中 所 产生 
的 输出 y(n) 在 图 8-S$b 中 作为 传递 系 煞 。 图 8-5b 清楚 地 展示 作用 于 神经 元 的 内 部 反馈 的 下 
列 两 种 形式 

* 根据 外 部 输入 (za)》， 自 放大 的 正 反馈 使 得 突 触 权 值 we(n) 增 加 。 

”由 于 -xy(z) 的 负 反馈 控制 zs(z) 的 增 大 ， 因 此 导致 突 触 权 值 w (=) 的 稳定 。 

乘积 项 - y(m)zxx(m) 与 在 学 习 规则 中 经 常用 到 的 遗忘 因子 或 汽 漏 因 了 于 有 关 ， 但 存在 差 
别 : 对 于 较 强 的 响应 y(mn)， 遗 忘 因子 变 得 更 加 显著 。 这 种 控制 现象 有 神经 生物 上 的 支持 
(Stent,1973)。 


算法 的 矩阵 形式 


为 了 描述 上 的 方便 ， 令 
CR) = [oa (ma) za( 下 ) To(P)] (8.43) 
和 (PE) = [0 () oz() ycm( 玫 )] 了 (8.44) 
输入 向 量 xz) 和 突 触 权 值 向 量 w(=) 通 常 都 是 随机 向 量 的 实现 。 用 这 个 向 量 符号 可 以 重 写 式 
《8.36) 为 肉 积 形式 如 下 : 






















































































7(n) = KTCa)wCn) = wT7(z)x(n) 《8.457) 
同样 地 ， 可 以 重 写 式 (8.40) 为 
w(n+1l) = wpn)+ 了 Cn)[x(n) -yn)w(n)] (8.46) 


将 式 (8.45) 代 人 (8.46) 得 
w+l) = wz)+TxCn)xTCn)wn) -WOnxz)xrn)yw(na)wtna)] (8.47)》 
式 (8.47) 所 示 的 学 习 算法 为 非 线性 随机 差分 方程 ， 这 使 得 该 算法 的 收敛 性 分 析 在 数学 上 

很 难 进行 。 为 了 得 到 收 和 敛 人 性 分 析 ， 我 们 先 简单 介绍 随机 逼近 算法 收 伍 分 析 的 一 般 工 具 。 


渐进 稳定 性 定理 


式 (8.47) 表 示 的 自 组 织 算法 是 一 般 的 随机 逼近 算法 
W(m+1) = WwW(a) + 人 训 )R(WwCn) ,RECm))， 有 = 0,1,2,…， (8.48) 

的 一 种 特殊 形式 。 序 列 从 ') 是 一 个 正 的 标量 序列 。 

更 新 函数 (update funetion)5( ，) 是 具有 某 些 正则 性 条 件 的 确定 性 函数 。 产 (. ， ) 和 标量 
序列 东 ') 完 全 确定 算法 的 具体 结构 。 

这 里 描述 的 过 程 的 目的 是 将 随机 非 线 任 差 分 方程 (8.48) 和 确定 性 的 常 微分 方程 (ODE) 联 
系 起 来 。 于 是 微分 方程 的 稳定 人 性 和 算法 的 收敛 性 联系 在 一 起 。 这 个 过 程 是 很 一 般 的 工具 ， 具 
有 很 广 的 用 途 。 这 分 别 由 Unng(1977) 与 Kushner and Clark(1978) 独 立 提出 ， 但 用 不 同方 法 己 。 
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我 们 的 术语 胡 


为 了 开始 ,过 程 假设 式 (8.48) 描 述 的 随机 章 近 算法 满足 下 和 面 的 条 件 ( 























示 ): 
1.1(m) 为 下 降 的 正 实数 序列 ， 使 得 我 们 有 
(人 袜 1) -= = (8.49) 
= 
(b) 王 Y( < om 对 > 1 (8.50) 
(e) WEn)>0 当 nmom (8.51) 
2. 参数 向 量 序列 ( 帘 触 权 值 )w(') 有 界 的 概率 为 1。 
3. 更 新 函数 A(w,x) 对 ww 和 x 连 续 可 微 ， 且 其 导数 在 时 间 上 一 致 有 界 。 
4. 对 每 个 w 存在 极限 
元 (w) = im 二 [ACW,) (8.52) 
统计 期 望 运算 符 互 对 随机 向 星 忆 操作 , 开 的 实现 由 x 表 示 。 
5. 常 微分 方程 
芭 w(D) = iv(D) (8.53) 





具有 局 部 渐进 稳定 解 (Lyapunev 意义 下 )， 其 中 上 表示 连续 时 间 ，Lyapunov 意义 的 稳定 性 在 第 
14 章 讨论 - 
6. 令 g 表示 式 (8.33) 的 解 ， 具 有 吸引 域 急 (q); 吸引 域 在 第 14 章 定义 。 那 么 参数 向 量 w 
(以 概率 工 经 常 无穷 次 进入 吸引 域 吧 Cg) 的 紧 子 集 江 。 
这 里 描述 的 6 个 条 件 痢 是 合理 的 。 凑 体 地 ， 条 件 1(a) 是 使 算法 在 任意 初始 条 件 下 能 够 将 
佑 计 值 移 到 斯 望 极限 的 必要 条 件 。 条 件 1(b) 给 定 欠 n) 趋 向 0 有 多 快 的 条 件 ; 这 比 常用 的 条 
件 








局) < mo 

的 限制 更 少 。 条 件 4 使 一 个 微分 方程 与 式 (8.48) 所 示 的 算法 相 联 系 成 为 可 能 的 基本 假设 。 

考虑 递归 等 式 (8.48) 描 述 的 随机 通 近 算法 ， 它 满足 假设 ! 至 6。 那么 我 们 可 以 陈述 这 类 
随机 表 近 算法 的 谢 进 稳定 性 定理 如 下 (Liung,1977;Kushner and Clark ,1978): 

Jimw(n) = 生 以 概率 1 经 常 无 限 地 成 立 《8.54) 

但 是 ， 我 们 强调 这 里 描述 过 程 虽然 提供 关于 算法 (8.48) 的 渐进 性 质 的 信息 ， 但 它 并 没有 
告诉 我 们 和 代 次 数 ”应 该 选 多 大 才能 使 分 析 结 果 可 用 。 此 外 ， 在 利用 式 (8,48) 算 法 解决 时 变 
参数 向 呈 的 问题 时 ， 要 求 

En) 一 0 当 闫 一 

是 不 可 行 的 ， 这 由 条 件 1(c) 规 定 。 我 们 可 以 通过 指定 ?的 一 个 很 小 的 正 数 来 克服 后 面 这 个 困 
难 ， 指 定 的 数 的 大 小 由 应 用 决定 。 随 机 逼近 算法 在 神经 网 络 的 实际 应 用 中 经 常 这 样 做 。 


最 大 特征 滤波 器 的 稳定 性 分 析 


在 稳定 性 的 ODE 方法 中 ,我 们 具备 全 究 由 式 (8.46) 表 不 的 递归 算法 的 收 敏 行为 所 需 的 
开具 ， 正 如 这 里 的 描述 ， 这 个 递归 算法 与 最 大 特征 滤波 器 相关 。 
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为 了 满足 潮 逃 稳定 性 定理 的 条 件 1， 我 们 令 
代 阅 ) = 工 
其 次 ， 从 式 (8.47) 注 意 更 新 冰 数 A(w，x) 由 
(WE) = xn)y(ny -和 关 (mw(a) 
= X(n)XCC)wLH) -|wrCn)x(n)xT On)w(za)]w(P) 
定义 ， 很 显然 它 满足 定理 条 件 3。 人 在 更 新 两 数 训 (w,) 中 利用 随机 向 唱和 的 一 个 实现 x 得 到 
式 (8.55)。 由 条 件 4， 我 们 对 和 求 取 风 w, 尺 ) 的 期 望 值 ， 从 而 可 写成 
六 = Jim 有 [XCn)X Cn)w(n) -(W (m) 玉 (nm) 呈 (mw(Ca)2wCn)] 


(8.55) 




















(8.56) 
= Rw(w) -imwr(om)Rw(m)]w(o) 
其 中 及 是 随机 向 量 X 去 示 的 随机 过 程 的 相关 和 矩阵，wK m ) 是 突 乔 权 值 向 量 的 极限 值 。 
由 条 件 5 并 根据 式 (8.53) 和 (8.56)， 我 们 寻找 非 线性 微分 方程 
旦 (CD = iv(D) -= Rm(D - [wCORwCOJw(n) (8.57) 
的 稳定 点 。 根 据 相关 矩阵 R 特征 向 显 的 完全 正 交集 将 w( 展开 成 
w(I) = 衬 stoa 《8.58) 


其 中 必 是 及 的 第 上 个 归 一 化 特征 向 量 ， 系数 (是 向 量 wb 在 三 的 时 变 投 影 。 将 式 
《8.58) 代 入 式 (8.57)， 并 使 用 基本 定义 








Rql = 和 gl 
和 到 Rqs = 入 
其 中 是 与 @& 相关 的 特征 值 ， 最 后 我 们 得 到 
站 罗 人 9 -= 袜 xb(o0q -[ 守 MeCD] 袜 atom (8.59) 
等 价 地 ， 我 们 可 写成 
各 -he -at(0 袜 xeo ar (8.60) 


从 而 我 们 将 式 (8. 48) 的 随机 盘 近 算法 的 收 俩 性 分 御 归 结 吉 为 涉及 主 模式 (Principal mode)B(b 的 
常 微分 方程 组 (8.60) 的 系统 稳定 性 分 析 。 

依赖 于 对 下 标 寺 所 赋 给 的 值 ， 可 分 为 两 种 情况 。 情 况 【对 应 于 1 < 上 < 严 。 情况 工 对 应 
于 上 =1; 普 为 x(m) 和 w(n) 的 维 数 。 依 次 考虑 这 两 种 倩 况 。 

情况 I 1<8#<m。 为 处 理 这 种 情况 我 们 定义 

ww) = 让， 1 < 正二 兽 (8.61) 

首先 假设 6 (1) 关 0， 若 初始 值 w(0) 随 机 选取 ， 这 以 概率 ] 为 真 。 对 式 (8.61) 两 边 对 时 间 + 求 
导数 得 到 





dosf 间 1 dl 人 和 加 (9 
家 帮 届 


1 de 人 (DCD g8( 1 < 天 
B( 何 和 80 和 < 





(8.62) 
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其 次 ， 将 式 (8.60) 代 入 式 (8.62)， 利 用 式 (8.61) 的 定义 并 化 简 结果 ， 我 们 得 到 


2 -On -au(， 1 < 下 二 下 (8.63) 

假设 幅 关 惩 阵 R 的 特征 值 导 不 相同 及 按 降序 排 殉 ， 则 有 
和 > 和 > > > > 《8.64) 
由 此 推 郑 特征 信之 券 N - X 为 正 ， 在 式 (8.63) 中 表示 -个 时 间 常 数 的 倒数 、 所 以 ， 从 情况 I 发 现 ; 
out 全 0 当 译 -> 反 对 于 1 < 天 过 库 (8.65) 


情况 下 不 = 1 从 式 (8.60) 可 知 ， 这 第 二 种 情况 由 微分 方程 
加 旬 - 6(D) -99 补 8CD = (CD -8 -80 疡 8 
人 《8.66) 
= Bt) -入 全 () - 针 ( na 


描述 。 然 而 ， 从 情况 [我 们 知道 ， 当 ， 时 ， 对 于 7 关 1，aw 一 0。 因 此 ， 当 : 趋向 无 穷 大 
时 ， 式 (8.66) 右 端的 最 后 一 项 接近 0。 忽 略 此 项 ， 式 (8.66) 简 化 为 


罗 -Mb(Di BO] 对 ta (8.67) 


但 是 必须 强调 ， 只 在 渐进 意义 下 式 (8.67) 成 立 。 

方程 (8.67) 表 示 自 治 系统 ( 即 系统 不 显 式 依赖 于 时 间 )。 这 样 一 种 系统 的 稳定 性 最 好 由 称 
为 [yapunov 邓 数 的 正定 晒 数 处 理 ，Lyapunov 函数 的 具体 地 处 理 细节 在 第 14 章 介绍 。 令 s 表示 
自治 系统 的 状态 向 量 ，F(i) 表 示 系 统 的 Lyaponoy 函数 。 如 果 满 足下 烈 条 件 ， 则 系统 的 平衡 
状态 是 渐进 稳定 的 : 

















吕 (D <0 对 sequ-s 


其 中 昏 为 的 小 邻 域 。 
对 当前 的 问题 ， 我 们 断言 微分 方程 (8-67? 有 一 个 由 
代 间 = [从 (1 (8.68) 
定义 的 Tyapunoy 殉 数 。 为 了 证 实 这 个 断言 ， 必 须 证 明 F(z) 希 要 满足 下 面 两 个 条 件 : 
L. 生 旨 <0 对 所 有 + (8.69) 
2. 以 旨 具 有 最 小 值 《8.70) 


在 式 (3.68) 中 对 求 导 得 
玫 提 -4006(D) -下 表 - -BDIG(D -了 对 于 (8.7 
其 中 在 第 二 个 等 式 和 用 了 式 (8.67)。 因 为 特征 值 是 正 的 ， 从 式 (8.71) 发 现 ， 当 ! 趋 近 无 穷 
大 时 ， 式 (8.69) 的 条 件 为 真 。 此 外 ， 从 式 (8.70) 知 Y(i) 在 8(i) = <1 处 具有 最 小 值 ( 即 
生 59 -0)， 所 以 武 (8.70) 的 条 件 也 请 足 。 因 此 我 们 可 以 用 下 列 陈述 结束 情况 L 的 分 析 ， 


bt) 一 二 1 当 上 一 om 《8.72) 
根据 式 (8.72) 中 描述 的 结果 利 式 (8.71) 的 定义 ， 可 以 重新 陈述 式 (8.65) 中 情况 工 的 结果 
的 最 终 形式 : 





























[加 


to9| 
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外 (9 -0 雪上: 一 四 对 于 1 < 下 过 殉 《8.73) 
从 情况 [和 下 的 分 析 作 出 的 全 面 结论 足 两 方面 的 : 
*。 式 (8.47) 描 述 的 随机 通 近 算法 仅 主 模式 收 俩 于 妨 (5)， 算 法 的 其 他 所 有 模式 将 喜 减 为 0。 
， 模式 0 ( 妇 收 伍 于 +1。 
因此 ， 渐 进 稳定 性 定理 的 条 件 5 满足. 特别， 依据 式 (8.58) 的 展 片 式 ， 可 以 正式 地 陈述 
wb -外 当 上 一 oo 
中 g 是 相关 矩阵 R 的 最 大 特征 值 X 对 应 的 归 一 化 特征 向 量 。 
根据 渐进 稳定 性 定理 的 条 件 6， 我 们 必须 证 明 对 存在 所 有 向 量 集合 的 子 集 避 满足 
Jimw(z)》= 以 概率 1 无 限 地 经 常 成 立 
为 了 这 样 做 ， 我 们 必须 满足 条 件 2， 这 可 通过 碟 性 限制 w(n) 的 项 ， 使 它们 的 幅度 值 小 于 立 
值 s。 我 们 可 以 定义 w(a) 的 范 数 为 
| (ay 上 = max|ooi( 呈 ) | 去 和 《8.74》 
令 是 民 " 的 庄 缩 子 集 ， 由 一 个 范 数 小 于 等 于 。 的 向 量 集 定 义 ， 可 以 直接 证 明 ( Sanger， 
1989b) 。 
如 果 |‖ w(a) | 入 ae， 且 常数 上 足够 大 ,， 则 |‖ mw(na+1Di < 1 w(Cn) | 以 概率 工 成 立 。 


于 是 ， 随 着 迁 代 次 数 = 的 增 大 ，wKn) 将 最 终 进 入 溯 内 并 以 概率 1 留 在 中 内 。 因 为 吸引 域 
贸 (q ) 包 括 所 有 有 界 范 数 的 向 量 ， 内 此 有 内 毛 锚 (@ )。 换 句 话 赔 ， 条 件 6 满足 。 

现在 渐进 稳定 性 定理 的 所 有 6 个 条 件 都 满足 了 ， 因 此 证 明 ( 满 足 前 面 提 到 的 假设 ) 随 机 通 
近 算 法 (8.47) 将 使 w(n) 以 概率 1 收敛 于 特征 向 星 % ，g 是 与 相关 矩阵 R 的 最 大 特征 值 对 
应 的 特征 向 和 量 。 这 不 仅 是 算法 的 国定 点 ， 而 且 是 惟一 的 渐进 稳定 点 。 
基于 Hebb 最 大 特征 滤波 串 的 性 质 小 结 

刚才 给 出 的 收敛 分 析 只 证 明 由 式 (8.39? 或 等 价 地 式 (8.46) 的 眼 组 织 学 习 规 则 控制 的 单个 
线性 神经 元 自 适 应 地 抽取 平稳 输入 的 第 一 个 主 分 量 。 这 第 一 个 主 分 量 对 应 于 随机 向 量 X(n) 
的 相关 矩阵 的 最 大 特征 值 X; 事实 上 ) 与 模型 输出 y(n ?的 方差 有 关 ， 如 下 所 示 。 

令 c(m) 表 示 随 机 变量 Y(m) 的 方差 ，y(m) 表 本 Yan) 的 一 次 实现 ， 即 

(an) = 可 天 (na)] (8.75) 

其 中 由 于 输入 均值 为 零 ，F(m) 有 其 有 0 均值 。 在 式 (8.46) 中 令 mm 并 且 利 用 w(n) 趋 向 于 g 
的 事实 ， 我 们 得 到 












































X(n) = 7y(n)g 对 mm 一 只 
利用 这 个 关系 ， 可 以 证 明 当 选 代 次 数 ”趋向 于 时， 方差 二 (nm) 趋 辐 于 N ;参见 习题 8.2。 
总 运行 由 式 (8.46) 措 述 的 基于 Hebb 的 线性 神经 元 以 慨 率 1 收敛 于 一 个 国定 点 ， 
它 具有 如 下 的 特征 (Oja， 1982) : 
1. 模型 输出 的 方差 趋向 于 相 关 年 阵 及 的 最 大 特征 值 ， 表 示 为 
Jime(m) = (8.76) 


2 模型 的 突 触 权 值 向 量 趋向 相关 的 竺 征 向 量 ， 表示 为 
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JImw(a) = 生 (8.77) 
且 lim jwtn) 1 =1 (8.78) 

这 些 结果 均 假 设 相关 矩阵 及 是 正定 的 ， 且 及 的 最 大 特征 值 N 的 重 数 为 1。 这 些 结果 也 [424 
适用 于 只 有 XN > 0 且 重 数 为 ! 的 非 负 定 相关 垂 阵 及。 

例 8.2 匹 疯 站 波 器 ”考虑 随机 向 量 X(n) 组 成 如 下 : 

X(Cn) = s+V(Cn) 

其 中 s 为 固定 单位 向 量 ， 皮 示 信 号 分 量 ，V(m ) 为 零 均值 的 白 唆 声 分 量 。 输 和 人 向量 的 相关 和 拭 
阵 为 






































及 = 瑟 [XCn)XT(n)] = SS7 + oI 
其 中 9 是 噪声 向 量 V(m) 元 素 的 方差 ， 工 是 单位 矩阵 。 因 此 相关 抢 阵 R 的 最 大 特征 值 




















和 = 1+ 
对 应 的 特征 向 量 g 为 
外 = 上 5 
容易 证 明 ， 在 这 种 情况 下 这 个 解 满足 特征 值 问题 
Rq = Nd 
因此 ， 对 于 本 例 描 述 的 情况 ， 自 组 织 线性 神经 元 (从 收敛 到 它 的 稳定 条 件 ) 充 当 一 个 匹配 的 滤 
波 器 ， 其 冲击 响应 (由 罕 触 权 值 表示 ) 与 输入 向 量 X(Cn) 的 信号 分 最 s 匹配。 国 





8.5 基于 Hebb 的 主 分 量 分 析 


上 一 节 中 基于 Hebb 的 最 大 特征 滤波 器 抽出 输入 的 第 一 个 主 分 量 。 这 个 单线 性 神经 元 模 
型 可 以 扩展 到 单 层 线性 神经 元 的 前 锁 网 络 ， 目 的 在 于 对 输入 
进行 任意 大 小 的 主 分 量 分 析 (Sanger,1989b) 。 

具体 地 ， 考 虑 如 图 8-6 所 示 的 前 锯 网 络 。 假 设 具 有 下 面 
两 个 结构 属性 : 

1. 网 络 输出 层 的 每 个 神经 元 尾 线 性 的 。 

2. 网 络 有 m 个 输入 和 1 个 输出 ， 它 们 都 大 指定 的 。 另 
外 ， 网 络 输出 少 于 输入 ( 即 了 <)。 
网 络 接受 训练 的 仅 有 突 触 术 值 集 ; wwr} ， 它 们 将 输 人 层 的 
源 节 点 奔 和 输出 层 计算 节点 /连接 起 来 ， 其 中 ;= 1,2，…, 严 图 8-6 仅 有 单 层 计算 节点 
和 j =1.2,…，7。 的 前 钙 网 络 

在 时 刻 ” 神经 神经 元 / 对 输入 集 1z (na)1i = 1,2,…, mi 的 响应 所 产生 的 输出 六 (mn) 由 下 
式 给 出 (参看 图 8- 7a); 
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芳 (n)》 = 习 wz， 了 = 12 (8.79) 
根据 Hebb 学 习 的 广义 形式 ， 修 改 察 触 权 值 w(n) 采 用 下 式 (Sanger,1989b ) ; 
L 12 
入 ar(P) = 放 y(nma(m) -2 辣 各 (nzr(n]， 2 《8.80) 


其 中 Am (n) 是 在 时 蓝 对 风 (ny 的 修改 , ?是 学 习 率 。 对 于 一 层 含 有 ! 个 神经 元 的 式 
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(8.80) 所 示 的 广义 Hebb 算法 (generalized Hebbian algorithm,GHA ) 包 括 上 - 节 式 (8.39) 的 算法 
为 其 特殊 情况 ， 即 ) = 1- 
为 对 该 算法 的 行为 进行 分 析 ， 将 式 (8.80) 千 新 写成 














AD = OLD 
的 形式 ， 其 中 zx,( ) 为 输入 向 量 x(n) 的 第 ;个 分 量 的 修改 形式 ， 它 是 下 未 的 函数 ， 表 示 为 
了 0 = -人 人 COrr(w) (8.82) 








对 某 个 指定 的 神经 元 疡 式 (8.81) 夫 示 的 算法 与 上 一 节 式 (8.39) 表 示 的 算法 在 数学 形式 上 完 
全 相同 ， 只 是 将 x (az) 变 成 了 它 的 修改 值 x;(n)。 可 以 进一步 将 公式 (8.80) 重 新 与 成 Hebb 
的 学 习 假 设 对 应 的 形式 ， 表 示 成 





Aitpn) = min)z my) 《8.83) 
其 中 xm 一 同 (yn) (8.84) 
注意 ooif(a+1)= aaf(m)+Aazr() (8.85) 
各 om) = 2 [am 人 (+1)] (8.86) 


其 中 * ”是 单位 延迟 操作 符 ， 我 们 可 以 构建 广义 Hebh 算法 的 信号 流 岗 ， 如 图 8-7b 所 示 。 从 
图 中 看 出 只 要 其 公式 由 式 (8.85) 描 述 ， 则 等 法 适合 于 实现 的 局 部 形式 。 同 时 注意 在 图 8-7b 
的 信号 流 图 中 表示 反馈 的 %(n) 由 式 (8.79? 决 定 ; 它 的 信号 流 图 表示 在 图 8-7a 给 出 。 
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天 四 10 
T 
一 2(m 
一 一 ta 
了 
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0 人 一 一 or 








的 


司 上 
图 8-7 广义 Hebb 算 法 的 信号 流 图 表示 
相 式 (8.79) 的 图 b) 式 (8.80) 至 (8.81) 的 图 
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为 了 有 助 于 理解 广义 Hebb 算法 实际 上 如 何 操作 ， 我 们 首先 利用 托 阵 形式 重 写 式 (8-81) 
定义 的 算法 如 下 : 
Aw(n) = yi(n)x(a) -mn)wiCn)， 了 = 1,2, (8.87) 


- 
其 中 xm) -sa -人 won) (8.88) 


向 其 X Cn) 为 输入 癌 贡 的 修正 形式 。 基 于 式 (8.87) 给 出 的 表示 ， 我 们 得 到 下 面 的 观察 结果 
《Sanger, 1989b) : 

1 对 于 图 8-6 的 前 馈 网 络 中 的 第 … 个 神经 元 ， 我 们 有 
7=1: X(n) = xn) 

下 ,广义 Hebb 算法 相当 于 上 一 节 的 一 个 神经 元 的 式 (8.46)。 由 8.4 节 的 撒 述 ， 我 

们 已 经 知 道 这 个 神经 元 将 发 现 输 人 向 量 的 第 一 个 主 分 量 。 
2, 对 于 图 8-6 中 的 第 2 个 神经 元 ， 我 们 写 出 
=2 (na) = 一品 (n)7(o) 
如 果 第 一 个 神经 元 已 经 收敛 于 第 -个 主 分 量 ， 则 第 二 个 神经 元 看 到 一 个 输入 向 量 X (nm)， 从 
其 中 已 经 去 掉 相 关 失 阵 R 的 第 一 个 特征 向 量 。 因 此 第 二 个 神经 元 抽取 的 是 磋 ( 的 第 一 个 主 
分 量 ， 相 当 于 原来 输入 向 量 Cn) 的 第 二 个 主 分 量 。 

3, 对 于 第 3 个 神经 元 ， 我 们 写 出 

了 = 3; fn) = xn)-mfn)yin) 一 呈 (n)7aCz) 

假设 前 两 个 神经 元 已 经 分 别 收 伍 于 第 一 个 和 第 二 个 主 分 量 ， 如 前 面 两 步 的 解释 一 样 。 第 三 个 
神经 元 的 输入 向 量 为 忆 (m)， 从 其 中 已 经 去 掉 相 关 抢 阵 及 的 前 两 个 特征 向 量 。 因 此 第 三 个 神 
经 元 抽取 的 是 X (nm) 的 第 一 个 主 分 量 ， 相 当 于 原来 输入 向 量 x(n ) 的 第 三 个 主 分 量 。 

4. 对 于 图 8-6 的 前 馈 网 络 中 晋 下 的 神经 元 ， 继 续 执 行 上 述 过 程 。 显 然 根据 式 (8.81) 的 广 
义 Hebh 算法 训练 的 网 络 的 每 个 输出 代表 对 应 于 输入 向 量 相关 矩阵 的 某 一 特征 向 量 的 响应 ， 
并 且 这 些 输出 按 特 征 值 递 减 排序 。 

这 个 计算 特征 向 量 的 方法 与 通称 为 Hotelling 的 紧缩 技术 (Hotelling's deflation technique) 相 
做 (Kreyszig,1988); 它 类 似 于 Gram-Schmidt 正 交 化 过 程 (Stang,1980)。 

这 里 所 给 的 -个 神经 元 接 一 个 神经 元 地 捕 述 仅仅 是 为 了 简化 解释 。 实 际 上 ， 在 广义 
Hebb 算法 中 所 有 的 神经 元 趋 于 同时 收敛 。 



















































































收效 性 考虑 
令 允 (ma) = j| 不 ()| 表 示 图 8-6 所 示 前 镇 网 络 的 一 个 !x mm 的 权 值 年 阵 ， 即 
Cn) = [mn)w(m) win)]7 《8.89)》 
令 广义 Hebb 算 法 的 学 习 率 参数 1 取 时 变形 式 人 nan)， 限 制 条 件 为 
Linna) =0 和 ZTCn) = om (8.90) 
可 以 将 算法 重新 写成 矩阵 形式 
AW(n) = 区 miy(n)xrn) - LTLYCn)y Cn)]WCn) (8.91) 


其 中 LT[ ' ] 为 下 三 角 算 子 ， 它 把 矩阵 对 角 线 上 方 的 所 有 元 素 置 为 0， 从 而 使 矩阵 成 为 下 三 裔 
睡 阵 。 在 这 些 条 件 下 以 及 采用 8.4 节 所 作 的 假设 ， 则 GHA 算法 收敛 性 证 明 的 过 程 与 上 节 关 

















415 


416 





7 


302 谊 9 黄 


于 最 大 特征 涨 波 器 的 收敛 证 明 相似 。 因 此 我 们 可 以 陈述 下 面 的 定理 (Sanger,1989b): 

如 果 权 值 给 阵 W(n) 在 时 间 步 mn=0 时 随机 赋值 ， 则 式 8.91) 所 描述 的 广义 JJebb 算法 以 
概率 1 收 化 于 固定 点 ， 且 多 T(m) 趋 于 一 个 纸 阵 ， 该 矩阵 的 列 分 别 为 由 x1 输入 向 量 的 由 x 亚 
的 相关 短 阵 及 的 前 1 个 特征 向 量 ， 按 特征 值 的 降序 排列 。 

这 个 定理 的 实际 价值 在 于 ， 当 对 应 特征 值 扎 不 相同 时 它 保证 广义 Hebb 算法 能 够 找到 相 
关 抵 阵 及 的 前 ! 个 特征 向 量 。 同 样 重要 的 是 ， 我 们 不 需要 计算 相关 矩阵 R, 下 的 前 4 个 特征 
向 量 可 直接 由 输 和 人 向量 计算 。 特 别 是 如 果 输 入 空间 的 维 数 m 很 大 ， 而 要 求 与 及 最 大 的 了 个 
最 大 特征 值 对 应 的 特征 向 量 的 数 昌 只 是 mm 的 一 小 部 分 ， 则 导致 的 计算 节省 可 能 是 户 大 的 。 

收敛 定理 是 用 时 变 学 习 率 参数 ma) 表示 的 。 实 际 上 ， 学 习 率 参数 只 能 选择 一 个 很 小 的 
固定 常数 1， 这 样 才能 保证 在 阶 的 突 触 权 值 的 均 方 误差 意义 下 收 伍 。 

在 Chatterjee et al.(1998) 中 ， 研 究 式 (8.91) 撒 述 的 GHA 算法 的 收 敏 性 质 。 那 里 给 出 的 分 
桥 浇 明 , 攻 增 加 将 导致 收敛 速度 加 快 ， 同 时 渐进 均 方 误差 也 会 增 大 ;这 在 直观 上 也 是 符合 
的 。 除 此 之 外 ,该 论文 对 计算 的 精确 性 和 学 习 速度 之 间 的 折 中 作 了 清楚 的 描述 。 


广义 Hebb 算法 的 最 优 性 


假设 在 疏 限 时 写成 
Aw(a) 一 0 和 王 ( 间 一 9 当 n 一 o 对 于 -12 (8.9%2) 























并 且 有 

lw(a)l =1 对 于 所 有 了 (8.99) 
那么 在 图 8-5 所 示 的 前 馈 网 络 中 ， 神 经 元 的 突 触 权 值 向 量 的 极限 值 % ,中 ,…,g 表示 相关 矩 
阵 R 的 前 了 个 特征 值 对 应 的 归 一 化 特征 向 量 ， 按 特征 值 的 降序 排列 。 在 平衡 时 可 写 为 


疙 ， 大 = 
7R -人 
和 Ra 0 














(8.94) 


其 中 力 > 和 > >》o 
对 于 神经 元 7 的 输出 ， 我 们 有 极限 值 
Timg(ny = Ca)q = 四 x(n) (8.95) 
令 另 (m) 用 表示 一 个 随机 变量 ， 其 实现 记 为 输出 %(na)。 在 平衡 时 随机 变量 吨 (a) 和 长 (n) 
的 互相 关 为 : 





N， 下 = 了 7 
0， 严 天 了 
因此 ， 我 们 可 以 陈述 :在 平衡 时 式 (8.91) 的 广义 Hebb 算法 充当 输入 数据 的 特征 分 析 器 。 

令 认 nm) 表示 输入 向 量 xm) 的 特定 值 ， 对 于 这 个 值 ， 式 (8.92) 的 极限 条 件 对 7j=!- 1 是 
满足 的 。 因 此 .从 式 (8.80) 的 矩阵 形式 ， 我 们 发 现在 极限 形式 


六 m) = ye(n)qx (8.97) 


这 意味 着 给 定 两 组 值 ， 即 图 8-5 的 前 钙 网 络 中 神经 元 的 突 甬 权 值 向 量 的 极限 值 q ,时 时 
和 相应 的 输出 yw (na),) 《na) (na)， 我 们 可 以 构造 输 人 向 量 xCn) 的 线性 最 小 平方 


到 ELY(D8(o] = ELqX(xrCoq] - wa = (8.96) 
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信 计 &Cn)。 实 际 寺 ,如 图 8-8 所 描 终 的 式 (8.97) 的 公式 可 视 为 一 种 雪 据 重建 -注意 根据 在 
8.3 节 中 的 讨论 ， 这 种 数据 重建 的 方法 导致 逼近 误差 向 量 和 和 估计 于 
&(z) 正 交 ， 











GHA 小结 
三 义 Hebb 算法 (CHA) 所 涉及 的 计算 很 简单 ， 可 以 小 结 如 
下 : 
1. 在 时 刻 ma = 1 时 ， 初 始 化 网 络 突 触 权 值 必 ， 使 其 取 一 个 时 
小 的 随机 煞 、 对 学习 襄 参 数 站 赂 给 “个 小 的 正 娄 。 图 8-8 如 何 计算 重建 向 








2. 对 于 n =1.7= 12.…, 和 1i=1.2,…,m 计 算 量 六 的 信号 流 图 表示 
(2) = 六 (za)x(z) 
各 


Arzus(n) = 训 六 (az(n) -六 Ca) 站 worto] 
其 中 ，a (2) 是 严 x1 输 和 人 向量 x(z) 的 第 ; 个 分 量 ， 7 尼 期 望 的 主 分 量 个 于 。 

3 增加 用 mn=a+1)， 转 到 第 2 步 ， 并 继续 执行 直到 由 达 到 稳 态 值 。 对 较 大 的 "， 神 
经 元 1 的 突 触 权 值 迪 收 敛 于 输入 向 量 x(m) 的 相关 矩阵 的 第 个 特征 值 对 应 特征 向 量 的 第 ;个 
分 量 。 

8.6 计算 机 实验 : 图 像 编 码 


通过 用 广义 Hebb 学 习 算 法 解决 图 像 编 码 问题 完成 对 该 算法 的 讨论 。 
图 8-9b 袁 示 用 于 训练 的 一 个 双亲 必 像 ; 该 图 像 强调 边缘 信息 。 它 被 数字 化 为 256 x 256 
的 图 像 ， 分 为 256 个 灰 度 等 级 。 利 用 一 个 具有 8 个 神经 元 的 单 层 线性 前 锁 网 络 对 图 像 编码 ， 
每 个 神经 元 有 64 个 输入 。 利 用 8x8 的 非 重 琶 图 像 块 训练 网 络 。 试 验 扫 措 图 像 2000 次 ， 学 
习 率 W= 10“。 
图 8-9b 虹 丰 的 8x 8 的 屏蔽 (mask) 表 示 网 络 学 习 所 得 的 突 触 权 值 。8 个 屏蔽 中 的 每 一 个 
为 与 某 个 特定 的 神经 元 相关 的 一 组 权 值 。 具 体 地 ， 兴 奋 ( 正 ) 的 权 值 用 白色 显示 ， 抑 制 ( 负 ) 的 
权 值 用 黑色 表示 ， 灰 色 表 示 权 值 为 0。 在 我 们 的 表示 法 中 ， 屏 蔽 表示 广义 Hebh 算法 收 伍 后 
的 寻 x8 突 触 权 值 惩 阵 W7 的 列 。 
使 用 下 面 的 步骤 实 现 对 图 像 编 码 ， 
” 图像 的 每 个 8x 8 缺 与 图 8-9b 所 示 的 8 个 屏蔽 的 每 一 个 相 乘 ， 因 此 将 产生 8 个 系数 作 
为 图 像 编 码 ; 图 8-9e 显示 没有 量化 的 基于 8 个 主 分 量 的 图 像 重 建 。 
，” 每 个 系数 一 律 被 量化 为 与 该 图 像 的 系数 方差 的 对 数 成 正比 的 比特 数 。 最 大 的 3 个 屏 
项 为 每 个 6 比特 ， 其 次 的 两 个 为 每 个 4 比特 ， 再 其 次 的 两 个 为 每 个 3 比特 ， 最 小 的 
一 个 为 2 比特 。 基 于 上 述 表示 ， 需 要 34 比特 对 每 8 x 8 的 像素 块 编码 ， 每 个 像素 为 
0.53 比特 的 数据 率 。 
用 量化 系数 重建 图 像 ， 所 有 的 屏蔽 者 用 它们 的 量化 系数 加 权 ， 然 后 亚 加 重新 构成 的 每 缺 
图 像 。 以 15:1 的 压缩 率 重建 双亲 图 像 如 图 8-9d 所 示 。 
作为 第 一 个 图 像 的 变化 ， 下 面 我 们 对 图 8- 10a 所 示 的 海洋 景色 图 片 应 用 广义 Hebb 算法 。 
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图 8-9 

可 用 于 图 像 编码 试验 的 双 素 图 像 ”b)8x 8 的 屏蔽 表示 由 CHA 学 习 的 突 航 权 介 
品 利 用 8 个 无 硅化 主 分 量 所 得 的 双亲 图 像 重 建 ” 由 用 量化 的 15:1 球 绒 比 的 双亲 财 像 重建 
这 幅 图 像 强调 纹理 信息 。 图 8` 10b 显示 肌 前 面 描述 的 处 理 方式 由 网 络 学 得 的 宽 触 权 值 的 8&x8 
屏蔽 图 像 ， 注 意 到 它们 和 8-9hb 的 屏蔽 的 区 别 。 图 8- !0c 显示 没有 量化 的 基于 8 个 主 分 量 重 
建 的 海洋 图 像 。 为 了 研究 量化 的 影响 ， 令 前 两 个 屏蔽 的 输出 每 个 为 5 比 转 ， 第 3 个 为 3 比 
特 ， 镁 下 的 5 个 每 个 为 2 比特 。 这 样 需 机 23 比特 为 每 个 8 x 8 像素 块 编码 ， 每 个 像素 块 的 比 
特 率 为 0.36 比特 每 像素 。 疼 8- 10d 显示 量化 后 重建 的 海洋 景色 图 像 ， 使 用 自己 的 以 刚才 描 
述 的 方式 量化 的 屏 项 。 这 幅 网 像 的 小 缩 比 为 22:1。 
为 了 测试 广义 Hebb 算法 的 “ 泛 化 "性 能 ， 最 后 用 图 8-9b 的 屏蔽 分 解 图 8- 10a 所 示 的 海 六 
景色 图 像 ， 然 后 用 与 产生 图 8- 10d 所 示 重 建 图 像 一 样 的 量化 过 程 。 这 个 图 像 重 建 结 果 如 图 
8-10e 所 示 ， 压 缩 比 与 8-10d 一 样 ， 也 为 22:1。 虽 然 在 8-10d 中 的 重建 图 像 与 夺 8- 10e 中 的 是 
惊人 地 一 致 ， 但 可 以 看 到 图 8- 10d 比 8-10e 更 其 有 真实 纹理 信息 而 更 少 块 状 现象 。 产 生 这 种 
情况 的 原因 在 于 网 络 的 权 值 。 对 双亲 图 像 和 海洋 景色 图 像 所 完成 的 训练 ， 它 们 的 前 4 个 突 触 
权 值 很 相似 。 然 而 ， 对 双亲 图 像 而 言 ， 后 4 个 权 值 编码 边缘 信息 ， 但 在 海洋 景色 图 像 中 .这 
4 个 权 值 编码 纹理 信息 。 因 此 当 用 边缘 型 权 值 对 海洋 图 像 编码 时 ， 纹 理 数 据 在 重建 后 是 粗糙 
的 ， 因 此 产生 了 块 状 现象 。 
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8-10 
避 海 洋 景色 图 像 b)8 x 8 的 屏 芒 者 示 由 应 用 于 海洋 景色 的 CHA 学 习 到 的 变 般 权 值 
器 利 用 8 个 优势 主 分 量 重建 的 海洋 原色 图 像 ”d) 利 用 b) 中 的 屏 坑 以 22:1 扑 缩 比 重建 的 
放 洋 虞 名 图 像 “ 昌 利用 图 8.9b 牛 的 屏 杖 册 码 以 22:1 压缩 比 基 化 重建 的 海洋 景色 图 像 
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8.7 使 用 侧 向 抑制 的 自 适应 主 分 量 分 析 


前 一 节 措 述 的 广义 Hebb 算法 是 基于 排除 使 用 前 饥 连 接 的 主 分 量 分 析 。 在 这 一 节 我 们 讨 
论 另 一 个 称 之 为 自 运 应 主 分 量 抽 取 ({adaptive prineipal components exbaction*APEX) 的 算法 (Kang 











[到 ; 
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and Diamantaras,1990; Diamantaras and Kung,1996)。APEX 算法 使 用 前 镇 连接 和 反馈 连 捷 ” 。 其 
特点 是 如 果 给 出 前 (7 - 世 个 主 分 量 ， 它 可 以 用 迁 代 方式 计算 第 /个 主 分 最 - 

用 于 导出 APFX 算法 的 网 络 模型 如 图 8-11 所 示 。 
和 以 前 一 样 ， 输 人 向量 和 为 普 维 ， 其 分 量 用 xx， 
如 表示 。 网 络 中 每 个 神经 元 均 为 线性 单元 。 旭 图 8- 11 
的 描绘 ， 网 络 中 有 两 种 突 触 连接 方式 ， 
前 饥 连 接 : 由 输入 节点 到 神经 元 1,2,…,7 间 的 
连接 ,< 严 。 我 们 特别 感 兴趣 的 是 到 神经 元 了 
的 前 馈 连 接 权 值 向 量 ; 这 些 连接 由 前 镇 权 值 向 
量 




















Wi = [an(nsapzftna)，yaon(z)] 
表示 。 前 倘 连 接 按照 Hebb 学 习 规 则 运行 ; 这 
种 连接 是 兴奋 性 的 ， 从 而 起 到 自 增 强 作用 。 
侧 向 连接 : 从 输出 单个 神经 元 1,2,…, -上 到 本 、 
神经 元 间 的 连接 ， 对 网 络 起 友情 作用 。 这些。 各 人 人 本 
连接 由 反馈 突 触 权 值 向 量 

an) = [on(n)an(n) anra(z)]7 
表示 。 侧 向 连接 按 反 Hebb 学 习 规 则 (anti-Hebb leaming mle) 运 行 ， 该 规则 对 它们 产生 
抑制 作用 。 

在 图 8-11 中 . 第 / 个 神经 元 的 前 馈 连 接 和 反馈 连接 用 粗 线 表 示 仅仅 为 了 强调 神经 元 / 是 
研究 的 主题 。 

神经 元 /的 输出 六 (nm ) 为 
Mn) = Wanjx(n)+ 呈 (nyi(n) (8.98) 
中 到 (zz)x(2) 由 前 局 连接 产生 ，g (2z)7 (Ca) 由 侧 向 连接 产生 。 反 馈 信 和 号 向 量 (mn) 由 
神经 元 1,2.….j- 1 的 输出 定义 : 
-Ta) = (na) 72) Cn) 《8 ,99) 
假定 输入 信和 号 x(m) 取 自 平稳 随机 过 程 ， 其 相关 矩阵 及 具有 不 同 的 特征 值 并 按 迷 减 顺序 排列 
如 下 ; 




















> 《8.100) 

进一步 假设 图 8- 11 中 网 络 的 神经 元 1,2,…, 一 ] 已 经 收 玫 到 相应 的 穆 定 条 御 ， 即 
wi(0O) = g， 大 = 12 (8.101) 
af0) = 和， 天 = 1,2,… 和 一 1 (8.102》 


其 中 生 是 与 相关 和 矩阵 及 的 第 大 个 特征 值 相 联系 的 特征 向 量 ， 网 络 神 经 元 庆 从 时 间 步 上 =0 时 
开始 计算 。 我 们 可 以 利用 式 (8.98) 、(8.%) 、(8.101) 和 (8.102) 写 成 

yn) = [gxCn) ,dx gx(n)] = Qx(nr) (8.103) 
其 中 Q 是 (7- 4) x 严 此 阵 ， 由 相关 手 阵 民 的 (7 - 1) 个 最 大 的 特征 值 X ,> ，……,X-, 相 联系 的 特 
征 向 量 g ,中 ,和 -构成 ， 即 





Q = [qh , 中 ,qd- 《8,104) 
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下 面 的 任务 是 用 图 8-11 中 网 络 的 神经 元 ) 计算 和 给 入 向 量 的 相关 算 阵 及 的 下 一 个 最 大 特征 值 
入 和 它 对 应 的 特征 向 量 g。 
前 馈 突 触 权 值 w (nz ) 和 反馈 突 触 权 值 a (m) 的 更 新 方程 分 别 定 义 为 

mW(n+1l) = 邢 (a)+ 瑟 儿 ()gz) - 曙 (Cn)Wi(n)] (8.105) 
和 ai(na+1l)=a(n)- 计 L5Cna)y (n+ 党 (na)a(n)] (8.106) 
其 中 ?是 学 习 素 参数 ， 假 设 两 个 更 新 方程 中 的 1 一样 。 式 (8.106) 右 端的 (na)x(n) 项 代表 
Hebb 学 习 ， 而 项 - 六 (na)y-i(a) 代 表 反 Hebb 学 习 。 剩 下 的 项 妇 (n)a (na) 和 一 只 (m)wi(a) 
保证 算法 的 稳定 性 。 基 本 上 ， 式 (8.105) 是 式 (8.40) 所 述 的 0ja 学 习 规则 的 矢量 形式 ， 而 
《8.106) 是 新 的 ， 说 明 侧 向 连接 的 作用 (Kung and Diamantaras, 1990; Diamantaras and Kung,1996) 。 

可 用 归纳 法 让 明 图 8-11 神经 网 络 的 绝对 稳定 性 如 下 : 

"。 首先 ， 我 们 证 明 如 果 神 经 元 1,2,…,j - 1 收敛 于 其 稳定 状态 ,那么 神经 元 / 将 通过 提 
取 输 入 向 量 x(n) 的 相关 符 阵 R 的 第 / 个 特征 值 N 及 其 对 应 的 特征 向 量 gl 而 达到 自 
身 的 稳定 状态 。 
其 次 ， 认 识 到 神经 元 1 没有 反馈 连接 ， 央 此 反馈 权 值 向 量 a 是 0， 我 们 可 由 归纳 法 
完成 这 个 证 明 。 因 此 这 个 特殊 的 神经 元 运行 实际 上 与 0ja 神经 元 的 运行 过 程 一 样 ， 
由 8.4 节 知道 在 一 定 条 件 下 这 个 神经 元 绝对 收敛。 

因此 仅仅 需要 注意 第 一 点 。 

为 了 进 -- 步 处 理 ， 我 们 使 用 8.4 茸 所 作 的 基本 假设 ,在 图 8-1l 所 示 网 络 中 的 神经 元 / 
的 运行 满足 式 (8.105) 和 (8.106) 描 述 的 条 件 下 ， 我 们 得 到 下 面 的 定理 (Kang and Diamaniaras， 
1990; Diamantaras and Kung,1996) 

若 给 定 的 学 习 率 参数 1 足够 小 ， 使 权 值 向 量 的 调节 进行 缓慢 ， 在 极限 时 前 馈 连 接 的 权 值 
向 量 和 神经 元 7 的 平均 输出 功率 (方差 ) 趋 近 于 相关 和 矩阵 及 的 归 一 化 特征 向 量 q 和 对 应 的 特 
征 值 N》 ， 分 别 表示 为 



































加 wo = 
和 Jimatna) = 为 
其 中 下 (mn) = 呈 [7(N)]， 且 和 >2> 和 > 和 >…>) >0。 换 名 话说 ， 给 定 特征 向 量 d 。 
下 ，,g@-,， 图 8-11 所 示 网 络 的 神经 元 /7 计算 出 下 一 个 神经 元 的 最 大 特征 值 X 和 对 应 的 特征 
向 量 w 。 
为 了 证 明 这 个 定理 ， 首 先 考 虑 式 (8.105)。 利 用 式 (8-98) 和 (8.99)， 并 且 认 识 到 ， 
3(m)y-i(mn) = 隐 i(n)ar(z) 














可 以 改写 式 (8.105) 如 下 : 
风 (a+D= 丙 (z)+mxn)x(na)w(z)+Rn)xrOr)Qra(n) - 妆 (m)w(o] 
(8.107) 
其 中 Q@Q 由 式 (8.104) 定 义 。 在 式 (8.107) 中 项 邮 (n) 没 有 改变 ， 其 原因 后 面 将 会 明白 。 用 8.4 
节 的 基本 假设 ， 对 (8.107) 两 端 应 用 统计 期 望 算 子 可 得 
wint+i = Want+ 训 Rwn)+RQra(n) -on)wfn) 《8.108) 
其 中 及 是 输入 向 量 x 的 相关 和 矩阵， 中 (m) 是 神经 元 了 的 平均 输出 功率 。 令 权 值 向 量 mm(n ) 补 


[ 苹 





La] 





426 











308 壳 ? 汤 





展开 成 相关 矩阵 R 的 正 交 特征 向 晤 集 如 下 : 
Wifm)》 = 呈 eoe (8.109) 


其 中 色 是 矩阵 R 的 X; 对 应 的 特征 向 量 ， 8，( 六 是 屡 开 式 的 时 变 系数 。 利用 某 本 关系 (参看 
式 (8.14)) 








及 g = 入 卫 
表示 抱 阵 乘积 Rw(e) 如 下 ， 


Rw (nm) = 六 anyRqu = 六 em)g (8.110) 
太一 上 大 = 工 


类 似 地 ， 用 式 (8.104) 表 示 矩 阵 乘积 RQrai(n 为 
RQraifz) = RIg ,和 gm) 


= [中 中 -gt] 


Gin 
因此 ， 将 式 (8.109)、(8.110) 和 (8.111) 代 人 式 (8.108) 并 化 简 ， 得 到 (Kung and Diamantaras， 
1990) 

写 so + 1)q = 立 11+ 人 LN -Cn]16k(n)qe + 定 xeoa (8.112) 
遵循 上 述 类 似 的 过 程 ， 可 以 将 关于 反馈 权 值 向 量 (om) 的 更 新 方程 (8、 106) 变 换 成 下 述 形 
式 (参看 习题 8.7)， 
an+1l) = 一 从 bn) + ren]iacn) (8.113) 
中 了 是 第 7 个 元 素 为 1 而 其 他 元 素 均 为 0 的 向 量 。 下 标 上 被 限制 在 范围 1< 有 < 六 工 内 。 
按 上 与 7 一 1 的 关系 需 考虑 两 种 情况 。 情 况 [ 指 1 < 大 < - 1， 适用 于 分 析 网 络 * 已 有 的 ” 
主 模式 。 情 况 下 指 ) < 下 大 普 ， 通 用 于 分 析 * 新 的 " 主 模式 ， 而 总 的 数量 为 mm， 即 输 入 向 量 
x(m) 的 维 数 。 
情况 I 1<k<7-1 在 这 种 情况 下 ， 从 式 (8.112) 和 (8.113) 分 别 推出 关于 qu 的 系数 
x(n) 的 更 新 方程 以 及 反馈 权 值 向 量 ae (nr 》 的 更 新 方程 
且 (+1) = 了 Wan 二 人 和 一 呈 (n) 和 ibm) (8.114) 
和 ent+I= -了 Ca)+til-LN+cOn)jlosn) (8.115) 
图 8-12 给 出 式 (8.114) 和 (8.115) 所 描述 的 信号 流 图 。 
用 矩阵 形式 重 写 式 (8.114) 和 (8.115) 如 下 ; 









































6(a+Dl) 1+aX -中 (Cn)] 从 ] em) 
= 8 
[0 | 一 人 hx 1-YLx +c(n)] [oo 16) 
式 (8.116) 搬 述 的 系统 所 阵 在 
pi =51- 呈 (了 (8.117) 


时 其 有 重 特征 值 。 由 式 (8.117) 可 得 到 下 面 的 重要 结论 : 
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1. 式 (8.117) 中 系统 矩阵 的 重 特征 值 六 个 信赖 1+00x- 020D) 
于 相关 矩阵 R 的 特征 值 N。 ,大 = 二 2. 光 一 1 

2. 对 于 所 有 的 上 ，ps 只 取决 于 学 习 率 参数 人 
和 神经 元 了 的 平方 输出 切 率 口 。 只 要 学 习 率 参数 
1 为 足够 小 ， 则 它 为 小 于 工 的 正 数 。 

假如 pk<1， 式 (8.109) 中 的 系数 县 (za) 和 反 
锁 私 值 as (na) 对 所 有 的 天 以 同样 的 速度 趋向 于 
0， 因 为 网 络 的 主 模式 具有 同样 的 特征 值 (Kung 
and Diamantaras, 1990; Diamantaras and Kung, 1996) 。 
这 个 结果 基于 这 样 的 性 质 ， 即 特征 向 量 的 正 交 性 
不 依 炉 于 特征 值 。 换 名 话说 ， 式 (8.109) 中 w(n) 
对 相关 和 阵 R 的 正安 特征 向 量 集 的 展开 式 与 特 
征 值 N ,加 ，…, -的 选择 是 无 关 的 ， 式 (8.109 ) 对 
式 (8.67) 的 结 昌 是 基本 的 。 

情况 下 /ssm 在 第 一 种 情 疯 下 ， 反 馈 
权 值 x(a) 对 网 络 俩 式 {mode) 左 影响 ， 即 

am)=0 对 于 和 下 过 严 (8.118) 

因此 ， 对 每 个 主 模式 丰 记 / 我们 有 下 曾 很 简单 的 狗 8- 12 式 (8.04) 和 (8.115) 的 信号 流 图 去 示 
等 式 : 











1-90+oPoD) 








ea+rl)=i+n -cn)]ionCn) (8.119) 
这 直接 由 式 (8.112) 和 (8.118) 可 得 。 根 据 情况 1， 对 下 = 1,2.…,7- 1,6x(n) 和 an(n) 都 收敛 
市 0。 用 随机 变量 也 4z) 表 示 神 经 元 7 的 输出 平均 输出 功率 可 以 表示 如 下 : 











Co) = 本 (ae)] = 袜 N 碟 () (8.120) [到 
和 
其 中 第 一 个 等 式 使 用 了 下 列 关 系 :; 
Ra 他 7 = 天 
4 110， 其 他 











此 式 (8.119) 不 可 能 发 家 ， 因 为 无 论 8 (na) 变 得 多 大 ， 只 要 中 (a > 和， 则 1+3[N 一 
守 (n)] 变 成 小 于 1， 在 这 种 情况 下 ， 乓 (nm) 的 辆 值 将 减 小 。 令 算法 用 初始 值 % (0) 关 0， 同 时 
定义 





0 = 中 寺 ， 天 = 了 二 网 《8.121) 
可 以 用 式 48.119) 写 为 
2 
mtn+1) = Tt -CD] (on) (8.122) 


+ -Co 
相关 垂 阵 的 特征 值 按 降序 排列 ， 
和 > 和 > 


由 此 推出 
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入 车 1 对 于 所 有 和 天 = 了 + 1 …, 亚 《8.123) 
此 外 ， 我们 注意 从 式 (8,119) 和 (8.120) 可 得 6 人 n+ 1 有 界 ， 因 此 
mn)0 当 m 一 om 时 对 于 下 = 了 + 1 下 (8.124) 
同样 地 。 按 照 式 (8.121) 的 定义 ， 我 们 可 得 
和 (Ra)->0 当 R 一 台 时 对 于 天 = 了 上 更 (8.125) 
在 这 个 条 件 下 ， 式 (8.120) 简 化 为 
(n) = 为 的 (ma) (8.126) 
所 以 式 (8.119) 对 霸 = 了 变 为 
Btna+l)=3J+RRLL-eta)]io(n) 《8.127) 
从 上 式 可 立即 推出 
bm) 一 1 当 ma->o 时 (8.128) 


这 个 极限 条 件 和 式 (8.125) 的 极限 条 件 有 两 个 方面 的 含义 : 
1 从 式 (8.126) 我 们 有 


cn 一 当 no 时 (8.129) 
2. 从 式 (8.109) 我 们 有 
wm) 一 g 当 m 一 o 时 《8.130) 





换 句 话说 ， 当 只 代 数目 = 趋 于 无 穷 大 时 图 8- 1 的 神经 网 络 模型 抽出 输入 向 量 x(m) 的 相关 生 
阵 及 的 第 7 个 特征 值 和 对 应 的 特征 向 量 。 这 时 自然 假定 网 络 的 神经 元 1,2,…,7- 1 都 已 经 收 
敛 于 相关 和 矩阵 R 的 对 应 特征 值 和 特征 向 量 - 
这 里 描述 的 APEX 算法 的 前 提 为 ， 在 神经 元 了 开始 作用 前 ， 神 经 元 1,2,… 池 -1 都 已 经 
收敛 。 这 是 为 了 简化 对 算法 运行 的 解释 。 实 际 |，APEX 算法 中 的 神经 元 是 网 时 收敛 的 “ 。 


学 习 率 


在 式 (8.105) 和 (8.106) 中 描述 的 APEX 算法 中 ， 更 新 前 馈 权 值 向 量 w (n) 和 反馈 权 值 向 

明 a(n) 的 学 习 率 参 数 1 是 相同 的 。 通 过 寺 重 特征 值 ps 为 06， 式 (8.17) 可 被 用 来 为 每 个 神经 
元 5 定义 学 习 率 引 的 最 佳 值 。 在 这 个 情况 下 ,有 

Ya(n) = -L (8.131) 


本 
or(m) 

其 中 dm) 是 神经 元 的 平均 输出 功率 。 但 是 ， 更 实际 的 建议 是 置 (Kung and Diamantaras， 

1990:Diamantaras and Kung,1996) 





















































Y = 也 (8.132) 


-1 


因为 X_，> 》 旦 当 no 时 呈 (n) > N， 因 此 对 学 习 率 参数 1 产生 过 低 的 值 。 注 意 特征 值 N_， 
由 神经 元 -1 计算 得 到 ， 因 此 对 神经 元 7 的 前 馈 和 反馈 权 值 的 更 新 都 是 可 用 的 。 


APEX 算法 小 结 
1, 在 ==1 时 ， 对 前 馈 权 值 向 量 w 和 反馈 权 值 向 量 a 岂 于 小 的 随机 数 作为 初 值 ， 其 中 














五 分 宣 分 砂 371 





7 = 1,2,…,mae 设 定 学 习 率 参数 ?为 小 的 正 煞 。 
2. 填 /=I， 对 mn=1.2.… 计 算 
fn) = WP)X(n) 
mtn+l=R(a)+LNCa)xn) -Cnw(n)] 
其 中 xn) 为 输入 向 量 。 对 于 很 大 的 . 有 w (m 一 9， 和 为 区 m) 的 相关 符 阵 的 最 大 特征 值 
入 对 应 的 特征 向 量 。 
3. 置 /=2,， 对 mn = 1,2,… 计 算 
PCn) = [an 
Ja) = W(n)x(n)+g (ny in) 
(+ = 有 (n+ 证 区 (xm) 一 人 (mW{() 
aarD -ao -WooyiCa re)atn)] 
4. 对 于 增加 1， 返 回 第 3 步 ， 并 继续 直到 j = 严 ， 其 中 mm 是 期 望 的 主 分 量 的 数 基 。( 注 意 
7= 1 对 最 大 特征 值 相关 的 特征 向 量 ， 在 第 2 步 受 到 处 理 ) 对 于 很 大 的 =， 我 们 有 w(n) qi， 
汪 (mn) 一 0， 其 中 量 是 x(n) 的 相关 征 阵 的 第 7 个 特征 值 对 应 的 特征 向 量 。 


8.8 两 类 PCA 算法 


除了 8.5 节 讨论 的 广义 Hebb 算法 (GHA) 和 8.7 节 讨 论 的 APEX 算法 外 ， 在 文献 5! 中 还 报 
导 了 几 种 其 他 的 主 分 量 分 析 算法 。 神经 网 络 中 使 用 的 各 种 主 分 量 分 析 (PCA) 可 分 为 两 类 : 重 
估计 (reestimalion) 算 法 和 去 相关 {decormelating) 算 法 。 

按照 这 个 分 类 ，GHSA 是 重 估计 算法 ， 央 为 式 (8.87) 和 (8 ,88) 可 重 写 为 等 价 的 形式 





























wina+ri = wftn)+miCa)[xn) -总 (na)] (8.133) 
中 看 估 计算 子 &i(m) 定 义 为 
& nm -= 六 wanna) (8.134) 
才 = 
在 重 估计 算法 中 神经 网 络 只 有 前 馈 连 接 ， 按 Hebp 方式 修改 它 的 强 虚 ( 权 值 )。 通 过 在 学 习 过 


程 涉及 数据 集 之 前 先 从 输入 中 减 掉 前 儿 个 主 分 量 的 估计 值 ， 强 迫 网 络 的 后 继 输 出 学 习 不 同 主 
分 虽 。 

相反 ，APEX 算法 是 去 相关 算法 。 在 这 种 算法 中 网 络 具 有 前 锁 和 反馈 连接 ， 前 馈 连 接 的 
强度 遵守 Hebb 规则 ， 而 反馈 连接 的 强度 遵守 反 Hebb 规则 。 网 络 的 后 继 输出 通过 去 代 关 作用 
来 强迫 网 络 响应 不 同 的 主 分 量 。 


主子 空间 
在 仪 需 电 主子 空间 ( 即 主 分 重 对 应 的 空间 ) 的 情况 下 ， 我 们 用 一 种 对 称 和 模型 蔡 代 CHA 算 
法 中 的 重 估计 算 子 名 Cn); 
&(n) = 忆 wi(oOm(z) 对 于 所 有 1 (8.135》 


在 式 (8.133) 和 (8.135) 定 义 的 对 称 模型 ， 网 络 收敛 于 一 组 可 生成 主子 空间 的 和 输出， 而 不 是 
主 分 量 本 身 。 收敛 时 权 值 向 量 彼此 正 交 ， 如 在 GHA 算法 中 一 样 。 这 里 描述 的 主子 空间 可 被 












































429 





Leo 


[6 





312 儿 8 胆 





认为 外 由 式 (8.46) 定 文 的 经 典 0ja 规则 的 “种 排 广 。 
8.9 计算 的 集中 式 方法 和 自 适 应 方法 


讨论 主 分 量 分 析 时 不 考虑 问题 的 计算 方 而 是 不 完整 的 ， 企 木 季 将 讨论 两 个 主 分 其 计算 的 
基本 方法 : 集中 式 方法 和 自 适 应 方法 。 在 8.3 节 措 述 的 特征 分 解 和 相关 的 奇异 值 分 钱 方法 属 
于 集中 式 类 。 另 方面 , 在 8.5 节 和 8&.7 节 讨论 的 GHA 算法 和 APEX 算法 属于 自 适 应 类 。 

在 理论 上 ， 如 8.3 节 的 描述 特征 分 解 方法 是 基于 输入 随机 辕 贞 XKn) 的 相关 怎 阵 R 的 总 
体 平 均 。 实 际 上 ， 我 们 使 用 及 的 估计 值 。 令 1x(a) 表示 随机 向 量 尼 (n) 在 南 印 癌 卫 的 离散 
上 时刻 的 一 组 让 次 实现 。 给 定 这 样 “组 观察 , 我 们 可 以 用 样本 均值 作为 相关 夭 阵 的 估计 : 

Row) = 才 2x(aox'(n) (8.136) 


台 
只 要 用 X(n) 表 示 的 输入 环境 向 量 为 各 态 历经 的 ， 当 样本 大 小 趋 于 无 穷 太 时 ， 样 本 均值 
真 (W) 趋 于 R。 在 这 个 基础 上 ， 可 以 对 伴 本 均值 廊 ( Y) 使 用 特征 分 解 过 程 ， 从 而 在 式 (8.22) 用 
硫 ( W) 赫 代 R， 由 此 订 算 出 它 的 特征 值 和 对 应 的 特征 向 量 。 
然而 ， 从 数值 的 角度 看 ， 更 好 的 方法 足 占 接 利用 数据 甜 阵 进行 奇异 值 分 解 (singular value 
decomposition,SVD)。 对 一 组 观察 值 1x(z)1i*:， 数 据 秘 阵 为 
A = [xx(2)，xCN)] 《8.137)》 
除了 比例 因子 IN 外 ,容易 看 出 相关 和 矩阵 R 的 估计 六 ( W) 与 年 阵 乘 积 AA7 完全 相同 。 按 昭 
第 5 章 讨论 的 奇异 值 分 解 定理 ， 数 据 矩 阵 A(n) 可 以 分 解 如 下 (Golub and Van Loan,1996) : 





























A= UZV7 (8.138) 
其 中 U 和 Y 是正 交 和 矩阵 ， 这 意味 着 
U" = U7 (8.139) 
和 V= 《8.140) 
至 于 目 阵 于 ， 具 有 下 画 的 结构 形式 : 
加 01: 
ca 
互 = 4 (8.141) 
0 村 
0 0 











中 大生 严 ， 严 是 观察 向 量 x(n) 的 维 数 。 实 数 m ,o ,…,ax 称 为 数据 矩阵 A 的 奇异 值 。 相 应 
地 ， 正 交 年 阵 U 的 列 称 为 堪 奇 异 向 量 ， 而 正 交 和 矩阵 Y 的 列 称 为 右 奇 异 向 量 。 数 据 抵 阵 A 的 
奇异 值 分 解 与 相关 和 抢 阵 的 估计 良 (N) 的 特征 值 分 解 有 下 面 的 关系 ， 

。 除了 线 例 因子 1 外， 数据 矩阵 A 的 特征 值 足 估 计 廊 ( w) 的 特征 值 的 平方 根 。 

，A 的 左 奇异 向 量 是 估计 六 (mw) 的 特征 向 基 。 

现在 ， 我 们 可 以 看 出 奇异 值 分 解 比特 征 值 分 解 具有 的 数值 优点 。 对 于 给 定 计算 精度 ， 奇 
异 值 分 解 过 程 需要 的 数值 精度 为 特征 值 分 解 的 一 半 。 此 外 ， 在 让 算 负 上 用 于 实现 奇异 值 分 解 
的 过 程 已 有 许多 算法 和 高 精度 的 定制 程序 可 资 利 用 ( Colub and Van Loan,1996; Haykin 1996)。 
然而 ， 在 实际 中 ， 存 储 需 求 限 制 这 些 程序 使 用 的 样本 量 不 可 能 太 大 。 
下 面 转 到 另 一 类 自 适 应 方法 ， 这 些 方法 可 以 对 任意 大 的 样本 大 小 w 工作 。 对 所 有 的 实 
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际 问题 .对 吧 均 没 有 限制 。 基 于 Hebb 规则 的 神经 网 络 站 自 适 应 方法 的 例子 ， 它 操作 的 思想 
来 源 寺 神经 止 物 学 ， 这 类 方法 对 存储 的 要 求 彬 对 适中 ， 央 为 特征 值 和 特征 向 量 的 中 间 什 不 需 
存储 - 自 适 应 算法 的 分 个 诱 人 的 特征 是 在 非 乎 籍 生 境 中 ， 与 焦 中 式 方法 相 比 ， 它 共有 以 最 
优 解 和 和 较 低 代价 眼 踪 缓慢 变 化 的 固有 了 能力， 然而， 随机 逼近 型 自 适 应 算法 的 主要 缺点 是 收敛 
速度 相当 慌 ， 这 一 点 和 经 典 的 集中 式 技 术 比 较 处 于 不 利 地 位 ; 对 大 型 的 平稳 问题 尤其 如 此 ， 
邯 使 是 寿 并 行 神经 网 络 硬件 上 实现 自 适 应 方法 (Ketilainen,1993)。 


8.10 核 主 分 量 分 析 


刘 目 前 为 止 本 章 讨 论 的 PCA 形式 涉及 到 在 输入 (数据 ) 空 间 上 的 计算 。 现 在 我 们 考虑 另 
-种 形式 的 PCA， 计 算 在 特征 空间 上 进行 ， 它 和 输入 空间 是 非 线性 的 关系 。 我 们 打算 使 用 的 
特征 空间 是 依据 Mereer 定理 的 内 积 核定 义 的 ; 内 积 核 的 概念 在 第 6 章 的 支持 向 量 机 中 讨论 。 
基于 核 的 主 分 量 分 析 思 想 归 功 于 Schalkopf et 由 .(1998)。 
由 于 输入 空间 和 特征 空间 的 非 线性 关系 ， 核 PCA 旦 非 线性 的 。 然 而 ， 并 不 像 其 他 堪 式 
的 非 线性 PCA'% ， 核 PCA 的 实现 依赖 于 线性 代数 。 因 此 我 们 可 以 将 核 PCA 看 作 是 一 般 PCA 
的 白 然 扩展 。 
令 向 量 9(x ) 表 示 输 入 向 基 % 在 非 线性 映射 :9: 开山 ”定义 特征 空 问 中 导出 的 像 ， 
其 中 mo 是 输入 空间 的 维 数 ，mi 是 特征 空间 的 维 数 。 给 定 一 组 样本 1x ji, ， 我 们 有 一 组 相 
应 的 特征 向 量 !9(x, ) 拉 4。 因此 我 们 可 以 在 特征 空间 定义 直下 表示 的 mm x mi, 相关 符 阵 如 
下 : 


























=- 方 忆 eto)ortx ) (8.142) 

如 回 普通 的 PCA， 天 人 人 阿 量 i9(x,)|, 的 集合 具有 零 均值 : 

到 eG ) =0 
在 特征 空间 请 息 这 个 条 件 琵 在 输入 宣 癌 下 下 加 困 认 在 习题 8.10 中 我 们 描述 一 个 过 程 来 
满足 这 个 要 求 。 假 设 特征 问 硬 已 经 聚集 于 中 心 ， 则 可 以 在 明 前 情况 下 改变 式 (8.14)， 扫 成 

Rd = )Xq (8.143) 
其 中 关 为 及 的 特征 值 ，g 为 对 应 的 特征 向 量 . 我 们 注意 对 入 z0 满 忠 式 (8.143) 的 所 有 特征 向 
量 ， 落 在 特征 向 量 j9(& ) 庆 : 集 合生 成 的 空间 中 。 因 此 存在 -组 相应 的 系数 ja 局， 用 饭 位 
可 写成 




















和 = seeo 《8.144) 
由 此 将 式 (8.142) 和 (8.144) 代 入 式 (8. 143) 得 到 
六 症 setx)ktx， ) = 7 症 etx) 《8.145) 
其 中 Kx ,x ) 是 内 积 核 ， 二 内 是 由 下 区 证 允 全 
K(x 3) = 中 (xz)9( 王 ) 《8.146) 


我 们 需要 进 … 步 计算 式 (8.145) 使 得 完全 有 峙 内 积 核 米 表示 此 关系 。 在 式 (8.145) 等 号 的 两 边 左 
乘 以 转 置 向 量 9 (xt ) 得 


相 
忆 
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* 
袜 skec (0) = RARK(Cx) 12 到 (8.147) 


其 中 Kg) Ke ) 由 式 (8.146) 定 义 ， 

现在 引入 下 面 两 个 村 阵 定 义 ， 

，NxA 生 阵 政 ， 称 为 核 狂 阵 ， 已 的 第 站 个 元 索 为 内 积 核 KCx ,% ) 

， 六 xl 癌 基 am， 第 /个 匹 素 为 参数 w 

内 此 ， 可 以 将 式 (8.147) 瑟 成 紧凑 的 阵 形式 

Kza = NAXKa (8.148) 

其 中 算 阵 的 平 廊下 表示 K 自身 相 乘 : 因为 式 {8.148) 两 端 均 有 必 ， 特 征 值 问题 感 兴趣 的 全 部 
解 同样 可 用 为 更 简单 的 特征 值 问题 表示 : 














Ka = Nia 《8,149) 
令 和 > 和 3) 表示 核 称 阵 攻 的 特征 值 ， 即 
和 = RU， 了 = 1.2， (8.150) 
中 忆 是 相关 矩阵 坟 的 第 7 个 特征 值 。 从 而 式 (8.149) 变 成 标准 形式 
Ke = xc (8.151) 
其 中 系数 向 量 起 到 核 和 撼 阵 瑟 的 特征 值 的 对 点 特征 向 量 的 作用 。 系 数 向 量 必 是 归 :化 的 ， 




















因为 要 求 将 相关 和 矩阵 让 的 特征 向量 4 归 一 化 为 单位 长 度 ， 即 

gd =1 对 大 = 1,2,…，,P (8.152) 
此 处 乱 设 特征 荐 为 降序 排列 ，)X, 为 导 第 阵 素 的 特征 值 的 最 小 非 零 值 。 利 用 式 (8.144) 和 
《8.151) 我 们 可 以 得 到 式 (8.152) 等 价 的 归 一 化 条 件 : 











oo = 寻 导 = 12 (8.153》 
为 了 抽出 主 分 量 ， 需 要 计算 特征 向 量 gx 在 特征 空间 上 的 投影 如 下 : 
gp(x) = 六 sr (x)9(x) = sk ,天 12 (8.154) 











中 向 量 x 是 “测试 点 ， /是 矩阵 于 虚 个 特征 值 对 应 的 特征 向 量 ms 机 个 系数 。 式 
(8.154) 的 投影 定义 在 mm 维特 征 空间 中 的 非 线性 主 分 量 (noninear principal component)。 

8-13 说 明 赎 PCA 的 基本 思想 ， 其 中 特征 空间 经 过 变换 g(x) 和 输入 空间 是 非 线性 相关 
的 。 图 中 的 a 和 部 分 分 别称 为 输入 空间 和 特征 空间 。 钢 8- 13b 中 的 轮廓 线 表示 在 主 特征 向 
量 上 的 投影 为 常数 的 线 ， 特 征 向 量 用 虚线 箭头 表示 。 在 此 图 中 ， 假 设 变换 p(x) 用 下 面 的 方 
式 选 择 : 在 特征 空间 中 数据 点 诱导 的 像 聚 集 在 特征 向 量 沿线 。 赂 8- 13a 显示 输入 空间 上 对 应 
特征 空间 的 线性 等 值 线 的 非 线 性 等 值 线 。 注 意 我 们 有 意 没 有 在 输入 空间 上 画 特 征 向 量 的 原 
像 ， 因 为 它 甚 至 可 能 不 存在 (Schalkopf et al. ,1998)。 

按照 Mereer 定 理 定义 的 内 积 核 ， 我 们 在 mi 维特 征 空间 上 执行 普通 的 PCA， 维 数 m, 是 
设计 参数 。8.3 节 撒 奈 的 普通 PCA 的 所 有 性 质 对 核 PCA 均 适 用 。 尤 其 ， 核 PCA 在 特征 室 间 
上 有 是 线性 的 ， 但 在 笨 人 空间 上 是 非 线 性 的 。 因 此 ， 所 有 可 用 普通 PCA 进行 特征 提取 和 数据 
压缩 的 领域 ， 进 行 非 线性 扩展 PCA 也 有 意义 。 

在 第 6 章 我 们 提出 了 三 个 构造 内 积 核 的 方法 ， 它 们 是 基于 利用 多 项 式 、 径 向 基 函 数 和 双 
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图 8-13 核 PCA 了 图例 
a) 二 维 输 人 空间 ， 显 示 一 组 数据 点 b) 二 维特 征 空间 ， 显 未 数据 点 在 一 个 主 特征 向 量 附近 聚集 
的 诱导 像 。 在 旬 中 区 匀 排 列 的 叫 线 表示 在 特征 向 基 下 投影 为 常数 的 等 值 线 ; 
它们 在 输 人 空间 中 芍 对 诺 等 什 线 是 非 线性 的 


曲 亲 数 ;参见 表 6- 1。 对 给 定 的 任务 ， 怎 么 翌 选 择 最 适合 的 核 ( 即 恰 当 的 特征 空间 ) 中 一 个 有 


待 解决 的 问题 (CSchalkopf, 1997) 。 
核 主 分 量 分 析 小 结 








切 


1. 给 定 训练 料 本 1x. ji ,计算 wx 六 核 矩 阵 玉 = 1E(x , 交 ) ， 其 中 
大 (5) = 97 和) 四 ( 瑟 ) 


2. 解释 特征 值 问 题 : 


了 Ka = )e 


其 中 和 为 耻 的 特征 值 ，e 为 对 应 的 特征 向 量 。 


3. 归 一 化 所 计算 的 特征 值 ， 这 要 求 


] 
T0，- 一 
到 到 = 和 


天 = 了 12.… 


2 


其 中 心 是 抢 阵 长 最 小 的 非 零 特征 值 ， 很 送 特 征 值 是 按 降序 排列 的 。 
4. 为 了 抽取 测试 点 X 的 主 分 量 ， 计算 投影 





其 中 wk, 是 特征 向 量 mw, 的 第 7 个 元 素 。 


例 8.3 为 了 对 核 PCA 的 运行 有 一 个 直观 的 了 解 ， 











人 9(X) = oO 二 二 12 
所 


8-14 显示 Schilkopf et al.(1998 ) 搞 


述 的 一 个 简单 的 实验 结果 。 二 维 数据 由 分 量 ”, 和 凡 组 成 ， 在 这 个 试验 中 用 下 述 方法 产生 : 


2 的 值 在 区 闻 [ - 1,1] 均 匀 分 布 ，z 的 值 与 nm 的 非 线性 村 





Ma = 十 


关 , 由 
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确定 ， 其 中 是 加 性 Gauss 白 虽 声 ， 均 值 为 0， 方差 为 0.04。 
图 8-14 所 示 的 PCA 的 结果 是 用 核 多 项 式 
Kx ) = (xx ) 也 = 12,.3,4 
得 到 的 ， 其 中 4= 1 对 应 线性 PCA，d = 2,3,4 对 应 于 核 PCLA。 线 性 PCA 如 图 8-14 撕 面 所 示 ， 
因为 笨 和 人 空间 为 二 维 ， 仅 产 牛 两 个 特征 向 基 。 相 反 ， 核 PCA 允许 抽出 高 阶 分 量 ， 结 果 如 图 
8-14 由 的 2,3、4 列 所 示 ， 分 别 与 4= 2.3,4 对 应 。 图 中 得 部 分 虹 示 的 等 值 线 ( 在 线性 PCA 情 
形 时 除 点 零 特征 人 上 的 投影 为 常数 )。 
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图 8-14 说 明 核 PCA 的 一 维 示 例 。 从 左 到 右 ， 核 多 项 式 的 次 数 4= 1.2.3,4 、 从 上 到 
下 ， 是 未 特征 空间 中 的 前 面 三 个 等 征 册 基 。 第 一 列 对 应 普通 的 PCA， 后 三 询 对 应 多 
436 项 式 次 数 4= 2,3,4 的 核 PCA( 复 制 经 Dr.Klaus-Rober Muller 允许 。) 
根据 图 8- 14 显示 的 结果 可 得 到 如 下 结论 
。 如 所 期 望 的 ， 线 性 PCA 不 能 对 非 线性 输入 数据 提供 足够 的 措 述 。 
，” 在 所 有 情况 下 ， 第 一 个 主 分 量 治 着 构成 输 人 数据 的 擅 物 线 单调 变化 。 
，” 在 核 PCA 中 ， 对 不 同 的 多 项 式 次 数 4， 第 2 和 第 3 个 主 分 量 展示 一 定 的 相似 性 。 
， 在 多 项 式 次 数 4=2 情 况 下 ， 忌 PCA 的 第 3 个 主 分 量 显现 出 找到 如 性 高 斯 噪声 "的 
方差 。 消 只 这 个 主 分 量 的 影响 ， 在 效果 上 实际 是 执行 某 种 形式 的 嗓 声 消除 。 








恒 
8.11 小 结 和 讨论 


在 这 一 章 中 ， 我 们 提供 处 理 主 分 量 分 析 理 论 和 用 神经 网 络 对 其 实现 的 材料 。 现 在 我 们 加 
顾 这 些 材料 并 反问 : 主 分 量 分 析 有 多 大 用 途 ? 这 个 问题 的 答案 当然 依赖 于 有 兴趣 的 应 用 。 

如 果 主要 日 标 是 保存 尽 可 能 多 的 输入 向 量 中 的 信息 ， 并 得 到 较 好 的 数据 压缩 ， 则 主 分 量 
分 析 提供 一 个 有 用 的 自 组 织 学 习 过 程 。 这 里 从 8.3 节 的 材料 ， 我 们 注意 到 利用 基于 输 人 数据 
的 "前 工 个 主 分 量 " 的 子 空间 分 解 方法 所 提供 的 线性 映射 ， 它 在 允许 初始 输入 信号 的 重建 按照 
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均 方 误差 的 意义 下 是 最 优化 的 。 此 外 ， 基 于 前 【个 主 分 莉 的 予 空间 表示 比 其 他 任意 地 空间 表 
示 更 好 ， 因 为 输入 数据 的 主 分 量 按 特征 值 或 方差 递减 顺序 排 钓 。 因 此 ， 通 过 对 输入 数 据 的 第 
一 个 主 分 量 进行 最 精确 的 编 公 ， 对 剩 下 的 工 - ! 个 主 分 量 编码 精度 逐步 降低 ， 我 们 可 以 在 数 




















据 压 缩 中 最 优化 主 分 量 分 析 的 使 用 。 

















相关 的 问题 是 数据 集 的 表示 由 几 个 到 类 构成 。 因 为 聚 类 单独 地 可 见 ， 它 们 之 间 的 间隔 比 
集 类 的 内 部 散布 要 大 。 如 果 碰 巧 数据 集中 的 育 类 较 少 ， 用 主 分 量 分 析 建 立 的 主要 主轴 将 使 束 
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类 的 投影 具有 好 的 分 离 ， 因 此 提供 用 于 特征 提取 的 有 效 基础 











在 这 后 面 的 讨论 中 我 个 提 及 主 分 基 分 析 器 的 有 效应 用 -作为 监督 神经 网 络 (例如 反 向 


传播 训练 的 多 层 感知 器 ) 的 预 





处 理 器 。 这 里 的 动机 是 通过 对 输 和 人 数据 去 相关 来 如 速 学 习 过 程 





的 收敛。 一 个 诸如 反 向 传播 算法 的 监督 学 习 过 程 依 琴 于 最 速 下 降 。 因 为 多 层 感知 器 的 帘 触 权 
值 对 误差 信号 相互 作用 的 效果 ， 即 使 使 用 诸如 对 单个 权 什 使 用 如 和 动量 项 和 自 适应 学 习 率 之 
类 的 简单 局 部 加 速 过 程 ， 这 种 形式 的 学 习 过 程 收 敛 仍 然 特别 慢 。 然 而 ， 如 果 多 层 感 知 的 输 人 
出 不 相关 的 分 量 组 成 从 第 4 章 给 出 的 讨论 中 我 们 注意 代价 函数 略 (n) 关 于 网 络 自由 参数 的 
Hessian 矩阵 将 比 企 其 他 情况 下 更 接近 于 对 角 化 。 央 为 有 这 种 适当 形式 的 对 角 化 ， 则 独立 地 
泊 着 每 个 权 值 轴 适 当地 提高 学 习 率 ， 用 简单 的 局 部 加 速 过 程 就 会 使 收敛 过 程 有 相当 大 的 加 速 














《Bercker, 1991) 。 

















由 于 这 一 章 基 于 Hebh 的 算法 是 由 源 于 神经 生物 学 的 思想 所 激发 ， 因 此 以 对 生物 感知 系 
统 中 主 分 员 分 析 的 作用 的 评论 作为 结束 是 合适 的 。Linsker(1990a) 怀 疑 主 分 量 分 析 作 为 一 个 




















原则 的 “充分 性 "， 该 原则 用 了 








生 的 响应 性 质 。 特 别 地 ， 关 于 











决定 通过 单个 神经 元 分 析 输 人 “场景 "(scene) 的 一 个 总 体 所 产 
从 神经 元 的 响应 实现 对 输入 信号 的 精确 重建 与 主 分 量 分 析 最 优 





人 竹 的 相关 性 值得 怀疑 。 一 般 地 ， 人 脑 所 做 工作 很 显然 比 通过 感觉 单元 的 接收 信号 然后 再 简单 
重 现 输 人 场景 复杂 得 多 。 相 反 ， 一 些 潜在 的 “有 意义 的 线索 "或 特征 被 抽出 来 使 得 对 输入 得 到 
高 层 的 解释 。 因 此 我 们 可 能 对 这 个 讨论 开始 时 提出 的 问题 加 深 了 疑问 ， 并 且 会 问 ， 主 分 量 分 





桥 过 程 对 感知 过 程 到 底 有 什么 用 处 ? 


























对 于 在 分 层 聚 类 算法 中 由 0ja(1982) 利 Sanger( 1989a) 建 立 用 于 主 分 量 分 析 的 算法 ( 即 8.4 
节 和 8.5 节 讨论 的 基于 Hebb 规则 的 算法 ) ，Ambros-Ingerson et al. (1990) 指 出 了 它们 的 重要 意 
义 。 他们 提出 假设 认为 分 层 聚 类 可 以 表现 为 基于 长 期 潜能 (lone-temn potentiation,LIP) 的 记忆 





的 基本 性 质 (至 少 部 分 性 质 )， 


这 个 性 质 能 够 被 用 作 识别 环境 的 线索 ， 所 谓 长 期 潜能 就 像 在 皮 





层 球状 网 络 发 现 的 一 类 突 触 修改 和 在 人 脑 其 他 区 域 里 类 似 设计 的 回路 。 自 组 织 主 分 量 分 析 对 
在 大 脑 皮 层 中 学 习 线 索 的 分 层 聚 类 具有 重要 意义 ， 这 一 点 并 不 足 因为 它 的 最 优 重建 性 质 ， 而 


是 由 于 其 挑选 的 聚 类 投影 具有 好 的 分 离间 隔 这 一 内 在 性 质 。 














主 分 量 分 析 在 感觉 处 理 中 的 另 一 个 有 趣 的 作用 表现 为 阴影 成 像 (shape-from-shading) 问 题 


的 一 个 方法 中 ， 这 是 由 Atick 


eal,(1996) 提 出 的 。 此 问题 可 陈述 如 下 : 脑 怎么 能 够 从 投 义 到 





二 维 图 像 的 阴影 模式 感觉 一 维 形 状 ? Atick 等 人 提供 一 个 阴影 成 像 问题 的 分 层 解 ， 包 含 两 个 


概念 ， 
1. 通过 进化 或 先 验 经 验 ， 


脑 已 经 发 现 这 样 的 物体 ， 根 据 它们 的 形状 就 能 分 类 成 较 低 维 








的 物体 类 。 这 个 概念 实际 建立 在 这 翌 一 个 事实 的 基础 上 ， 即 脑 用 来 抽取 三 维 解释 的 线索 是 被 


透彻 了 解 的 。 





2. 按照 第 一 个 概念 ， 从 阴影 模式 中 抽取 形状 归结 为 低 维 空间 中 的 参数 估计 这 个 更 简单 


现 
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的 问题。 
例如 ， 人 类 头 型 的 整个 结 术 必然 相同 ， 在 某 种 意义 上 所 有 的 人 都 有 凸 出 的 鼻子 下陷 的 





眼窝 ， 平 坦 的 前 额 和 脸 烽 区 域 。 这 个 不 变性 套 明 对 任意 给 定 的 面部 ， 在 柱 面 ( 极 ) 坐 标 上 表示 
为 r(g, 门 ， 可 以 用 两 部 分 和 来 袁 示 : 


其 


rf9,T) = ro(8,7) +p(8,7) 





P ro(8, 7 表示 对 某 类 特定 人 (如 成 年 男性 或 成 年 女性 ) 的 平均 头 (mean-head) ，p(8, 1) 表示 





捕获 特定 人 特征 的 护 动 , 通常 p(9, 门 与 m(6, 1 相 比 很 小 。Ahtick 等 用 主 分 量 分 析 表 示 
2(6. 六 ,因此 波动 由 一 组 特征 函数 表示 ( 即 特征 向 基 的 二 维 对 应 物 )。Atick et .(1996) 的 结果 表 
明 对 其 个 人 用 这 个 人 给 定 的 一 个 二 维 图 像 ， 利 用 两 阶段 分 层 方法 具有 恢复 3 维 曲面 的 能 访 。 


注释 和 参考 文献 
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在 多 元 分 析 中 ,， 主 分 量 分 析 (PCA) 或 许 是 最 早 的 和 最 有 名 的 方法 (Jolife, 1986; 
Preisendorfer, 1988)。 最 早出 Pearson(1901) 引 人 ,在 生物 学 背景 下 他 用 它 来 重建 线性 巨 
妈 分 析 的 新 形式 。 后 来 Hotelling(1933) 在 做 心理 测验 时 将 它 发 展 。 看 来 Karhunen(1947) 
年 在 概率 论 框架 下 再 次 独立 地 讨论 了 它 ; 随后 被 Lotve(1963) 推 广 。 
Jijung(1977) 和 Kushner and Clatk(1978) 研 究 随机 道 近 算法 的 动态 行为 所 采取 的 措施 归结 
为 研究 对 应 差分 方程 的 动力 学 的 问题 。 然 而 这 两 种 方法 根本 不 同 。Ljiung 的 方法 是 利 
Lyapunoy 苯 数 ， 而 Kuspner 和 Clark 采用 的 方法 涉及 线性 插值 过 程 和 利用 Arzela-Aseoii 定 
理 (Dunford and Schwartz, 1966 )。 Kushner 和 Clark 的 方法 接着 在 Diamantaras and Kung 
(1996) 中 被 用 于 研究 对 基于 Hebb 的 最 大 特征 滤波 器 的 收 伍 性 。 其 中 得 到 的 结论 与 
Liaung 方法 得 到 的 相同 。 
Faldiak(1989) 扩 展 用 于 主 分 量 分 析 的 神经 网 络 结构 ， 引 人 反 Hebb 规则 的 反馈 连接 。 这 
个 收 改 的 动机 源 于 Barlow and Faldiak(1989) 关 于 视觉 皮层 的 自 适应 和 去 相关 的 早期 工 
作 ;， 他们 提出 如 果 神 经 元 按照 反 Hebb 规则 相互 作用 ， 则 神经 元 输出 定义 一 个 坐标 系 
统 ， 在 这 个 坐标 系统 中 ， 即 使 输入 具有 很 强 的 相关 人 性， 输出 也 不 具有 相关 性 。 

Rubner and Tavan(1989) 和 Rubner and Sehulten(1990) 也 提出 在 输出 神经 元 中 使 用 侧 
向 挤 制 。 然 而 ， 不 像 Foldiak 提出 的 模型 ，Rubner 等 人 考虑 的 侧 向 网 络 是 不 对 称 的 连 
接 。 相 反 ， 侧 向 网 络 是 分 层 的 ， 其 中 (比如 说 ) 神 经 元 ;抑制 除了 1,2,… 汪 -1 工 外 的 所 有 
神经 元 ,其 中 庆 = 1 2，…。 

Kumng and Diamantaras ( 1990) 研 究 的 APEX 模型 与 Rubner 等 人 的 模型 具有 相同 的 网 络 
拓扑 ， 但 是 Kung and Diamantaras (1990) 的 APEX 模型 在 调整 前 馈 和 侧 向 连接 的 权 值 时 均 
使 用 Oija 的 单个 神经 元 学 习 规 则 (在 8.4 节 描 述 )。 
Chen and Liu(1992) 给 出 APEX 算法 收敛 性 的 严格 证 明 ， 所 有 的 神经 元 趋 于 同时 收敛 。 
讨论 主 分 量 分 析 的 几 个 神经 模型 和 它们 的 比较 ， 请 参看 Diamantaras and Kung(1996) 的 
书 。 
非 线性 PCA 方法 ， 除 了 核 PCA 外 ， 可 以 被 归 人 三 类 网 络 ( Diamantaras and Kumg,1996) : 
。 Hebb 网 络 ， 用 非 线性 神经 元 代替 基于 Hebp 规则 的 PCA 算法 的 线性 神经 元 得 到 。 
” 复制 器 网 络 或 自动 编码 器 ， 建 立 在 多 层 感知 器 基础 上 : 复制 器 网 络 在 第 4 章 讨 论 。 
” 主 曲线 ， 基 于 捕获 数据 结构 的 曲线 或 曲面 的 选 代 估计 (Hastie and Smetale,1989)。 在 
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Ritter et 直 .(1992) 利 Cherkassky and Muiier(1995) 中 ， 指 出 Kohonen 的 白 组 织 上 射 可 被 
看 作 发 现 主 曲线 离散 各 近 的 计算 过 程 ; 自 组 织 映 射 在 下 一 章 讨论 。 

















习题 


基于 Hebb 的 最 大 特征 滤波 器 
8.1 对 于 例 8.2 中 攻 虑 的 匹配 涉 波 器 ， 特 征 值 X 和 对 应 的 特征 向 量 为 q 定义 为 





和 = 1 + 吕 和 = S 
证 明 这 些 参数 满足 基本 的 关系 
Rq = 六 全 
其 中 了 为 输入 向 量 习 的 相关 矩阵 。 




















8.2 考虑 最 大 特征 泪 波 器 ， 其 中 权 值 w( n) 按 照 式 (8.46) 演 化 。 证 明 随 着 = 趋向 于 无 穷 
大 ， 滤 波 器 的 输出 方差 趋向 于 Xe ， 其 中 Xe。. 为 输入 向 基 相 关 年 阵 的 最 大 特征 值 。 
8.3 次 分 量 分 析 (minor components analysis, MCA ) 与 主 分 其 分 析 是 相反 的 。 在 MCA 中 ， 

我 们 寻找 投影 方差 最 小 的 方向 。 这 样 得 到 的 方向 对 应 于 输入 向 晤 X(n) 的 相关 矩阵 R 的 最 小 
特征 值 的 特征 向 层 。 Lo] 
在 本 题 中 ,我 们 探讨 怎样 修改 8.4 节 的 单个 神经 元 发 现 及 的 次 分 量 。 特 别 业 ， 我 们 可 以 

对 式 (8.40) 的 学 习 规则 改变 符号， 得 到 (Xu et al. ,1992) 
am+1) = ta) -yn)[a(a) -yyCa)iogn)] 
王 明 如 果 相 关 宗 阵 R 的 最 小 特征 值 X。 重 数 为 1， 则 
Jimw(n) = 各 。 














其 中 qu。 是 与 X。 对 应 的 特征 向 基 。 
基于 Hebb 的 主 分 量 分 析 

8.4 构造 一 个 信号 流 图 表示 向 基 值 等 式 (8.87) 和 (8.88) 。 

8.5 在 8.4 节 描述 的 用 于 收敛 性 分 析 的 常 微分 方程 方法 不 能 直接 用 于 广义 Hehb 学 习 算 
法 (4GHA)。 然而 ， 通 过 将 式 (8.91) 的 突 触 权 值 矩 阵 多 (za) 用 三 (Cn) 的 列 向 量 的 组 合 来 表示 ， 
则 我 们 可 以 用 通常 的 方式 解释 更 新 函数 ('…)， 然 后 继续 应 用 渐进 稳定 性 定理 。 因 此 ， 根 
据 此 处 已 有 的 说 明 ， 证 明 GHA 算法 的 收 往 性 定理 。 

8.6 在 这 个 习题 中 ， 我 们 可 以 探讨 利用 广义 Hebb 算法 来 研究 随机 输入 向 量 产生 的 二 维 
接收 域 (Sanger, 1990 )。 贿 机 输入 包含 独立 于 高 斯 噪声 具有 零 均 值 和 单位 方差 的 二 维 域 ， 它 
与 高 斯 屏 藤 (滤波 器 ) 作 卷 积 ， 然 后 乘 以 一 个 高 斯 窗 。 高 斯 屏蔽 有 两 个 像素 的 标准 偏差 ， 高 斯 
窗 有 8 个 像素 的 标准 偏差 。 在 位 置 ( ",s ) 的 结果 随机 输入 x(r,s) 因 而 可 以 写成 

fr s) = 诬 (7,3)[ECr xb(ry 5) 
其 中 w(r,s) 是 独立 和 同 分 布 的 高 斯 噪声 的 域 ，g(r,s) 是 高 斯 屏 项 ，m(r,s) 是 窗 函 数 。 
er 和 w(rss) 的 循环 卷 积 由 


1 1 
&Krs)xakris) = > >)&E(p,g)zlr -ps -4) 
0 0 


定义 ， 其 中 g(r,s) 和 w(r,s) 均 假设 为 周期 的 。 
用 随机 输入 x( rs) 的 2000 个 样本 训练 基于 GHA 算法 的 单 层 前 镇 网 络 。 网 络 有 4096 个 
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和 输入， 排列 成 64 x 娃 像素 格 网 ， 具 有 16 个 输出 。 训 练 网 络 的 结果 突 触 权 值 用 爷 x 红 阵列 的 
数 表示 。 执 行 上 述 计算 并 显示 罕 触 权 值 作为 二 维 屏蔽 的 16 个 阵列 。 评 价 你 的 结果 。 
[时 8.7 式 (8.113) 定 义 计算 前 合 权 值 向 量 a(n) 的 修正 公式 (8.106) 的 变换 形式 。 变 换 基 于 
由 式 (8.109) 给 出 的 网 络 的 mm 主 模式 关于 突 独 权 值 向 量 mw (mn) 的 定义 。 导 出 式 (8.113)。 
8.8 考虑 式 (8,116) 的 系统 答 阵 ， 它 由 图 8- 12 的 信号 流 图 表示 ， 对 应 于 1<<7 1 
《a) 写 出 这 个 2x2 先 阵 的 特征 方程 的 公式 。 
(hb) 证 明和 矩阵 有 一 个 二 重 特征 什 。 
(e) 证 明 结论 : 网 络 的 所 有 主 模 东 有 相同 的 特征 值 。 
8.9 CHA 仅 用 前 镇 连 接 ， 而 APPX 算法 使 用 前 馈 连 接 和 侧 向 连接 。 尽 管 存在 这 些 差 别 、 
在 埋 论 上 APEX 和 CHA 的 长 期 收敛 行为 是 相 回 的 。 证 明 这 个 结论 的 合理 性 。 
核 主 分 量 分 析 
8.10 令 玉 表示 核 矩 阵 K 的 第 疡 个 元 素 太 中 心 化 后 所 对 应 的 部 分 。 证 明 (Schalkopf， 
1997) 


1 1 站 
厨 = 司 - 去 er(xz)e(x) - 到 忆 97(x)9(x) + 十 ZI 29(xo)9() 
公 气 全 肥 
[最 ] 建议 用 紧凑 的 矩阵 形式 表示 这 个 关系 。 


8.11 证 明 核 秽 阵 K 的 特征 向 量 e 的 归 一 化 与 满足 式 (8.153) 的 条 件 等 价 。 
8.12 小 结核 主 分 重 分 析 的 性 质 。 























9.1 简介 


在 这 一 章 我 们 通过 考虑 一 种 称 为 自 组 织 映 射 的 特殊 人 工 神经 网 络 继续 研究 自 组 织 系统 。 
这 类 网 络 基于 竞争 学 习 (competitive leaming); 网 络 的 输出 神经 元 之 间 开 相 竞 争 以 求 被 激活 或 
点 火 ， 结 果 在 每 一 时 刻 只 有 一 个 输出 神经 元 ， 或 者 每 组 只 有 一 个 输出 神经 元 被 激活 或 点 火 。 
赢得 竞争 的 一 个 输出 神经 元 被 称 作 有 台 者 全 得 (winneriakes-all) 神 经 元 或 简称 获胜 (winmning) 神 经 
元 。 在 输出 神经 元 中 导出 胜 者 全 得 的 竞争 方法 是 在 它们 之 间 使 用 仙 抑 制 连接 { 邯 负 反 馈 路 
径 ); 这 个 思想 是 由 Fosenblatt(1958) 最 先 提出 的 。 

在 自 组 织 映 射 里 ， 神 经 元 被 放 填 在 网 格 节 点 上 ， 这 个 网 格 通 常 是 一 维 或 是 两 维 的 。 更 高 
维 映 射 也 可 以 ， 但 是 不 常见 。 在 竞争 学 习 过 程 中 ， 神 经 元 变化 依 不 同 输 人 模式 (刺激 ) 或 者 答 
人 模式 的 类 别 而 选择 性 地 调整 。 这 样 调整 后 神经 元 ( 即 获胜 神经 元 ) 的 位 置 彼 此 之 间 成 为 有 序 
的 ， 使 得 对 于 不 癌 的 输入 特征 ， 在 网 格 上 建立 起 有 意义 的 坐标 系 (Kohonen,1990a) 。 因 此 自 绸 
织 映 射 由 输 人 模式 的 拓扑 映射 (topographie map ) 结 构 所 表征 ， 其 中 网 格 神经 元 的 空间 位 置 表 
示 输 入 模式 包含 的 内 在 统计 特征 ,“ 自 组 织 肌 射 "因此 得 名 。 

作为 一 个 神经 模型 ， 自 组 织 映 射 在 两 个 自 适 应 层次 之 间 提 供 一 个 桥梁 : 

， 在 单个 神经 元 的 微观 层次 形成 自 适应 规则 。 

、 在 神经 元 层次 的 微观 层 上 形成 特征 选择 在 实验 上 更 好 的 和 具体 可 实现 的 便 式 。 
因为 良 组 织 映 射 本 质 上 是 非 线性 的 ， 因 此 它 被 视 为 主 分 量 分 析 的 非 线性 推广 (Ritter,1995)。 

发 展 自 组 织 上 映 射 作 为 神经 模型 是 由 人 脑 的 一 个 突出 特征 所 激发 ， 人 脑 在 许多 地 方 以 这 样 
一 种 方式 组 织 起 来 ， 使 得 不 同 的 感觉 输 人 由 括 有 序 的 计算 映射 (lopologicaly ordered 
computational map) 来 表示 。 特 别 ， 感 觉 输入 如 触觉 (Kaas es al. ,1983) 、 视 觉 (Hubei and Wiesel， 
1962,1977) 和 听 党 (Suga,1985) 用 拓扑 有 序 的 方式 映射 到 人 脑 皮层 的 不 同 区 域 。 这 样 在 神经 系 
统 的 信息 处 理 基本 结构 中 ， 计 算 有 映 射 组 成 一 个 基本 构件 。 一 个 计算 映射 由 神经 元 阵列 定义 ， 
这 些 神经 元 表示 略微 不 同调 制 的 处 理 器 和 滤波 器 ， 它 们 并 行 处 理 携带 信息 的 传 感 信号 。 所 
以 ， 神 经 元 将 输 和 人 信和 号 转变 为 空间 位 置 编码 的 概率 分 布 ， 分 布 通过 映射 中 最 大 相关 激活 的 位 
蛋 表 示 参 数 的 计算 值 ( Knadsen et al. ,1987)。 用 这 种 方式 导出 的 信息 属于 这 样 一 种 形式 ， 它 
可 以 用 于 使 用 相对 简单 的 连接 模式 的 高 阶 处 理 器 。 


本 章 的 组 织 


这 一 章 所 讨论 的 关于 计算 映射 的 资料 是 按 下 而 方式 组 织 的 。 在 9.2 节 ， 我 们 描述 两 个 特 
征 映射 模型 ， 它 们 用 自己 特有 的 方式 解释 或 抓 住人 脑 中 计算 映射 的 本 质 特征 。 两 个 模型 使 用 
的 输 人 形式 彼此 不 同 。 

本 章 其 余 各 节 详 细 地 讨论 这 些 模 型 中 的 一 个 ， 通 常 称 为 “ 自 组 织 上 映射 ”， 由 Kohonen 
(1982) 提 出 。 在 9.3 节 里 我 们 使 用 神经 生物 学 的 考虑 方法 建立 Kohonen 模型 的 一 个 数学 公式 。 
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该 模型 的 小 结 在 9.4 节 给 出 。 模 型 的 重要 特性 在 9.5 节 描 述 ， 随 后 在 9.6 节 讨 论 它 的 计算 机 
仿真 。 特 征 肌 射 的 性 能 最 终 可 能 通过 一 个 称 为 学 习 向 昌 量 化 的 监督 技术 进行 微调 ， 这 个 技术 
在 9.7 节 讨 论 。9.8 节 提 述 一 个 关于 自 适应 模式 分 类 的 计算 机 实验 ， 它 结合 应 用 自 组 织 映射 
和 学 习 向 量 营 化。 在 9.9 节 描述 基于 自 组 织 贞 射 的 分 层 向 量 量化 ， 它 用 寺 数 据 压 缩 。9.10 节 
描述 另 一 个 自 纠 织 肌 射 的 应 用 ， 用 于 建立 上 下 文 映射 ， 它 从 文本 中 音素 类 别 的 无 监督 分 类 、 
还 感 和 数据 探索 中 找到 应 用 。 本 章 在 9.12 节 给 出 一 些 最 终 评价 作为 结束 。 


9.2 两 个 基本 的 特征 映射 模型 


任何 人 只 要 检查 人 脑 就 会 做 不 住 对 人 脑 诈 大 脑 皮质 所 占据 的 范围 留 下 深 深 印 象 。 人 脑 几 
平 完 全 被 大 脑 皮 质 所 包围 ， 它 遮 芯 了 其 他 部 分 ,由于 惊人 的 复杂 性 ， 大 脑 皮质 也 许 超 过 了 宇 
宙 中 任何 已 知 的 结构 (Huhel and Wiesel,1977)。 同 样 给 我 们 深刻 印象 的 是 将 不 同 的 感 党 输入 
《运动 、 身 体 的 体 觉 、 视 觉 、 听 觉 等 ) 以 一 种 有 序 的 方式 映射 到 相应 的 大 脑 皮质 区 域 的 方法 ; 
为 了 说 明 这 一 点 ， 看 图 2-4 的 大 脑 皮 质 的 细胞 结构 图 。 计 算 映射 的 使 用 提供 下 面 的 特性 
(Knudsen et 中. ,1987) : 

， 在 表 水 的 每 一 阶段 ， 每 一 个 新 来 的 信息 片段 保持 在 它 合适 的 位 轻 中 。 

， 处 理 高 度 相关 的 信息 片段 的 神经 元 被 紧密 地 联系 到 一 起 ， 通 过 短 的 人 沈 触 连接 使 得 它 

们 能 够 交互 。 

我 们 的 兴趣 在 于 建立 人 工 拓扑 册 射 ， 
它 以 神经 生物 学 激励 的 方式 通过 自 组 织 来 
学 习 。 在 这 段 文字 中 ， 从 人 脑 的 计算 映射 
的 非常 简短 的 讨论 所 体现 的 重要 一 点 是 拓 
扑 映 射 构成 原则 ， 它 可 以 陈述 如 下 
《Kohonen,1990a) : 

在 拓扑 映射 中 给 出 神经 元 的 空间 位 置 
对 应 于 特殊 的 定义 域 或 从 输入 空间 抽取 数 
据 的 特征 。 


这 个 原则 提供 了 这 里 描述 的 两 个 基本 不 同 
的 特征 映射 榴 型 "的 神经 学 生物 基础 。 

图 9-1 展现 两 个 模型 的 布局 。 在 两 种 
情况 下 输出 神经 元 被 安排 在 二 维 的 网 格 
中 。 这 种 拓扑 确保 每 个 神经 元 都 有 -- 组 邻 
域 。 模 型 间 的 区 别 在 于 输入 模式 的 指定 方 
式 。 

图 9-la 的 模型 由 Wilshaw and yon der 
NMalsburg( 1976) 在 生物 学 基础 上 首先 握 出 
的 ， 用 以 解释 (在 高 级 脊椎 动物 中 ) 从 视 网 
膜 到 视觉 皮质 的 视觉 映射 的 问题 。 具体 图 91 两 个 自 组 织 符 征 呐 射 
地 ， 有 两 个 不 同 的 二 维 网 格 神经 元 连接 在 or dr Matt 模型 PKohonen 模型 
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一 起 ， 一 个 投射 到 当 - -个 。 一 个 网 格 代表 前 突 触 ( 输 和 人 ) 神 经 元 ， 另 一 个 网 属 代 表 后 突 触 (给 
出 ) 神 经 区 。 后 罕 匈 网 格 使 用 短程 兴奋 机 制 (short-range excitaiory mechanism) 和 长 程 抑制 机 制 
《long-range inhibitor mechanism)。 这 两 种 机 制 汪 质 上 都 是 局 部 的 旦 对 自 组 级 特别 重要 。 这 两 
个 网 格 由 Hebb 型 的 可 调 突 钥 柑 世 连接 。 央 此 严格 地 说 ， 后 突 触 神经 元 并 不 足 胜 者 全 得 ; 相 
皮 使 用 来 值 确保 在 任 一 时 刻 仅 有 一 些 后 突 触 神经 元 点 火 。 更 进 -- 步 ， 为 了 防止 可 能 导 丛 网 络 
不 稳定 性 的 突 触 权 值 的 稳定 建立 ， 每 个 后 罕 触 神经 元 的 总 权 值 有 一 个 于 界 ”。 因 此 对 每 个 神 
经 元 一 些 突 触 权 值 上 升 伴随 普 另 外 的 神经 元 下 降 。 有 illshaw-von der Malshurg 模型 的 基本 思想 
是 对 前 罕 触 神经 元 的 几何 邻近 编码 为 它们 电位 活动 的 相关 形式 ， 并 且 在 后 突 触 网 格 中 利用 这 
些 相关 使 得 相 邻 的 前 突 触 神经 元 连接 到 相 邻 的 后 突 触 神经 元 。 从 而 由 自 组 织 产生 拓扑 有 序 的 
映射 。 但 需 注 意 Wilsbaw-ypn der Malsburg 模型 限制 为 输入 和 输出 维 数 相同 的 映射 。 
9- 了 b 的 第 一 个 异型 ， 由 Kohonen(1982) 引 人 ， 并 不 在 说 明神 多 生物 学 的 细节 。 模 型 抓 
住人 脑 中 计算 映射 的 本 质 特 征 而 且 保留 计 算 的 易 行 性 。Kohonen 异型 看 起 来 比 Wilshaw-von 
der Malsburg 异型 虽 为 一 般 ， 前 者 能 进行 数据 压缩 5 即 输入 维 数 的 缩减 )。 

现实 中 ，Kohonen 模型 属于 向 量 - 编码 (vector-coding} 算 法 的 类 型 。 模 型 提供 一 个 拓扑 映 
射 ， 它 最 优 地 设置 固定 数目 的 向 量 ( 即 编码 字 ) 到 高 维 笨 人 空间 ， 因 此 有 利于 数据 卡 缩 。 
Kohonen 模型 因此 可 由 两 种 方式 导出 。 我 们 可 以 用 由 神经 生物 学 考虑 所 激发 的 自 组 织 的 基本 
轧 想 导 出 异型 ， 这 是 传统 的 方法 (Kohonen, 1982, 1990a, 1997a)。 另 外 ， 可 以 用 向 量 量化 的 方 
法 ， 使 用 包含 缩 码 器 和 解码 器 的 模 列 ， 这 由 通信 理论 的 考 赎 所 激发 。 在 这 一 章 我 们 考虑 这 两 
种 方法 。 

在 文献 中 Kohonen 借 型 比 Willshaw-von der Malsbug 模型 受到 更 多 的 注意 。 它 拥有 在 本 章 
后 面 讨论 的 一 些 性 质 ， 这 使 得 它 对 入 脑 中 的 皮质 映射 的 理解 和 建 模 有 特殊 的 兴趣 。 本 章 鲁 余 
部 分 介绍 自 组 织 映 射 的 导出 、 它 基本 性 质 和 细节 。 


9.3 自 组 织 映 射 


自 组 织 肌 射 (selforganiring map,SOM) 的 主要 日 的 是 将 任意 维 数 的 输入 信号 模式 转变 为 一 
维 或 二 维 的 离散 映射 ， 并 且 以 拓扑 有 序 的 方式 自 适应 实现 这 个 变换 。 图 9.2 给 出 常用 作 离散 
映射 的 二 维 神经 元 网 格 的 简要 图 表 。 网 格 中 每 个 神经 元 和 输入 层 的 源 节点 全 连 搂 。 这 个 网 络 [gg] 
代表 具有 神经 元 按 行 和 列 构成 的 单一 计算 层 的 前 锁 结构 。 一 维 网 格 是 图 9.2 措 终 的 构 形 的 一 
个 特例 ; 在 这 种 特殊 情形 计算 层 仅 由 单一 的 行 或 列 神经 元 构成 。 
呈现 给 网 络 的 每 个 输 和 模式， 通常 包含 面 对 平 静 背 景 的 一 个 局 部 化 活动 区 域 或 "点 "。 这 
个 点 的 位 置 和 性 质 通 常 随 输 入 模式 的 实现 不 同 而 不 同 。 因 此 答 入 网 络 中 所 有 神经 元 应 经 历 答 
人 模式 的 足够 次 数 的 不 同 实现 ， 确 保有 机 会 完成 丛 当 的 自 组 织 过 程 。 
负责 形成 自 组 织 映 射 的 算法 ， 第 一 步 进行 网 络 突 触 权 值 的 初始 化 。 这 个 工作 可 以 从 贿 机 
数 产生 器 中 挑选 较 小 的 值 赋予 它们 ， 这样 做 ， 在 特征 映射 上 没有 加 载 任何 先 验 的 序 。_ 旦 网 
络 被 从 当初 始 化 ， 在 自 组 织 映射 的 形成 中 有 二 个 主要 过 程 ， 小 结 如 下 ; 
1. 竞争 。 对 每 个 输 和 模式， 网 络 中 的 神经 元 计算 它们 各 自 的 判别 函数 的 值 。 这 个 判别 
函数 对 神经 元 之 间 的 竞争 提供 基础 。 具 有 判别 函数 最 大 值 的 特定 神经 元 成 为 竞争 的 胜利 者 。 
2. 合作 。 获 星 神经 元 决定 兴奋 神经 元 的 拓扑 邻 域 的 空间 位 置 ， 从 而 提供 这 样 的 相 邻 神 
经 元 合作 的 基础 。 | 
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图 9-2 神经 抑 的 二 维 网 格 
3. 突 触 调节 。 最 后 的 这 个 机 制 使 兴奋 神经 元 通过 对 它们 突 触 权 值 的 适当 调节 以 增加 它 
们 关于 该 输入 模式 的 判别 函数 值 。 扩 做 的 调节 使 获胜 神经 元 对 以 后 相似 输 人 模式 的 响应 增强 
了 。 





竞争 和 合作 的 过 程 符合 第 8 章 描述 的 四 个 自 组 织 原则 中 的 两 个 。 对 于 自 增强 原则 ， 它 来 
源 于 自 适应 过 程 的 Hebb 学 习 的 修正 形式 。 如 第 8 章 的 解释 ， 输 入 数据 中 的 元 余 (虽然 在 描述 
SOM 算法 时 没有 明显 提 及 ) 对 学 习 是 需要 的 ， 因 为 它 提供 知识 。 现 在 给 出 竞争 、 合 作 和 突 触 
调节 过 程 的 详细 描述 。 


资 争 过 程 
令 严 表示 输入 (数据 ) 空 间 的 维 数 。 从 输入 空间 中 随机 选择 输入 模式 (向 量 ) 记 为 


X = [5 《9.1) 

网 络 中 每 个 神经 元 的 突 触 权 什 向量 和 输入 空间 的 维 数 相 同 。 神 经 元 的 突 触 权 值 向 量 记 为 
现 = Triaeoaon 了 = 2 (9.2) 
其 中 /是 网 络 中 昼 经 元 的 总 数 。 为 了 找到 输入 向 量 x 与 突 触 权 值 向 量 wi 的 最 好 匹配 ， 对 /= 
1,2，… ,1 比较 内 积 wx 并 选择 最 大 者 。 这 里 假定 所 有 的 神经 元 有 相同 的 阀 值 ; 搁 值 症 偏 置 
取 负 。 这 样 ， 通 过 选择 具有 最 大 内 积 wx 的 神经 元 ， 我 们 实际 上 决定 了 兴奋 神经 元 的 拓扑 
邻 瑾 中 心 的 位 置 。 
从 第 1 章 我 们 回想 基于 内 积 wx 最 大 化 的 豚 优 严 配 准则 ， 在 数学 上 等 价 于 向 量 x 和 mw 
的 Euclid 蝶 离 的 最 小 化 。 如 果 用 标号 区 xs) 标识 最 优 匹 师 输 人 向 量 x 的 神经 元 ， 我 们 可 以 通过 

下 列 条 件 !: 决定 ix) : 














ix) = argminllx- mW 时 ， 了 = ,2 (9.3) 
7 
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这 概括 了 神经 邢 中 竞争 过 程 的 本 质 .， 根据 式 (9.3)，i(X) 是 注意 的 日 标 ， 因 为 我 们 要 识 划 神 
经 元 ij。 满足 这 个 条 件 的 特定 神经 抑 被 称 为 输入 向 量 x 的 神经 元 或 获胜 神经 元 。 式 (9.3) 导 
出 这 翌 的 观察 : 

激活 模式 的 连续 和 输入 空间 通过 网 络 中 神经 元 之 问 的 竞争 过 程 映射 到 神经 元 的 离 册 输 出 空 
间 - 

根据 应 用 的 不 同 ， 网 络 的 响应 可 能 是 获胜 昼 经 元 的 标 续 ( 即 它 在 网 格 中 的 位 置 ) 或 者 是 在 
Fuelid 距离 意义 下 距 输入 向 量 最 近 的 突 触 权 值 向 量 。 


合作 过 程 


获胜 神经 元 位 于 合作 神经 元 的 拓扑 邻 域 的 中 心 。 关 键 问题 足 : 我 们 怎样 定义 一 个 在 神 
经 生物 学 上 正确 的 拓扑 邻 域 ?为 了 回答 这 个 问题 ， 记 件 对 许 一 组 兴奋 神经 元 的 侧 向 相互 
作用 有 神经 生物 尝 的 证 据 。 具 体 地 ， 一 个 点 火 的 神经 元 倾 癌 于 激活 它 紧 接 的 邻 域 内 的 神 
经 元 而 不 是 和 它 隔 得 远 的 神经 元 ， 这 在 直观 土 是 满足 的 。 这 个 观察 引导 我 们 对 获胜 神经 
元 的 拓扑 邻 域 按 侧 向 早 离 光滑 地 缩减 5 (Lo et 引 . ,1991,1993; Ritter et 引 . ,1992》。 有 只 体 地 ， 
设 态 ; 胡 未 以 获胜 神经 元 ;为 中 心 的 拓扑 邻 域 。 设 &. 表示 在 获胜 神经 无 和 兴 畜 神经 元 了 
的 侧 向 星 离 。 然 后 我 们 可 以 息 定 拓扑 邻 域 态 ,, 是 人 铀 向 距离 忌 .,, 的 单 峰 函 数 使 得 它 满足 蝴 个 
不 同 的 要 求 : 
。 拓扑 邻 域 万 ,关于 起 ) =0 定 义 的 最 大 点 是 对 称 的 ; 换 句 话说 ， 丰 距离 必 ,为 零 的 获胜 
神经 元 工 处 达到 最 大 值 。 
。 拓扑 邻 域 六 ,的 幅度 值 随 侧 向 距离 &. 的 增加 而 单调 递减 ， 当 马 ，*o 时 趋 于 零 ; 对 
让 敛 来 说 这 是 一 个 必要 条 件 。 
满足 这 些 要 求 的 一 个 声 , 的 典型 选择 为 高 斯 函数 甸 
Ara = em - 2 (9.4) 
它 是 平移 不 变 的 ( 即 不 依赖 于 获胜 神经 元 的 位 置 )。 图 9-3 所 示 参 数 "是 拓扑 邻 域 的 "有 效 宽 
度 "; 它 度量 靠近 获胜 神经 元 的 兴奋 神经 元 在 学 习 过 程 中 参与 的 程度 。 就 量化 来 说 ， 式 (9.4) 
所 示 的 高 斯 拓扑 邻 三 比 矩 形 形 式 的 拓扑 邻 域 在 生物 上 更 合适 。 它 的 使 用 使 SOM 算法 的 收敛 
速度 比 矩 形 拓扑 邻 万 更 快 (Lo et ,1991， 
1993; Frwin et 引 . ,1992a )。 0 
对 于 邻 域 函 数 神经 元 之 癌 的 合作 ， 必 
然 要 求 折 扑 邻 域 丽 数 已 ,依赖 获胜 神经 元 ;1 
和 兴奋 神经 元 ; 在 输出 空间 的 侧 向 距离 &， 
而 不 是 依赖 于 原始 输入 空间 的 某 种 距离 度 
量 。 这 正 在 式 (9.4) 中 我 们 所 衣 达 的 意 
义 。 就 一 维 网 格 来 说 、 忆 ,是 整数 旦 等 于 1 
- il。 晕 一 方面 ， 在 两 维 网 格 形 的 情况 它 
定义 为 0 
mn (9.5) 图 9-3 ”Causs 邻 域 函数 
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其 中 离散 向 量 mn 定义 兴奋 神经 元 7 的 位 置 ， 而 , 定义 获胜 神经 元 ; 的 离散 位 置 ， 了 两 者 都 是 在 
离散 输出 空间 中 度量 的 。 

SOM 算法 的 另 一 个 独 有 特征 是 拓扑 邻 域 的 大 小 随时 间 收 缩 。 这 个 要 求 遂 过 使 扩 扑 邻 域 
国 数 六 .的 宽度 e 随时 子 而 下 降 来 满足 。 对 于 “依赖 于 离散 时间 mn 的 流行 选 怪 足 由 


c(n) = aerp{ - 站)， 呈 = 0,1,2.…， (9.6) 








沸 述 的 指数 襄 减 ( Ritter et al, ,1992; DObermayer et al, ,1991 ) ， 其 中 m 是 SOM 算法 中 5 的 初 值 ， 
zi 是 时 间 常 数 。 因 此 ， 拓 扑 邻 域 假定 具有 时 变 赔 式 ， 表 示 如 下 

CD = eg(- 开 休 )， -002。 (9.7) 
其 中 sc(n) 由 式 (9.6) 定 义 。 于 是 随 着 na( 即 选 代 次 数 ) 的 增 如 宽度 cf m) 以 指数 下 降 ， 折 扑 邻 域 
以 相应 的 方式 缩减 。 这 样 我 们 将 六 .oo (mn) 称 作 邻 域 函 教 。 

另 一 种 关于 邻 域 函 数 六. (m 在 获胜 神经 元 ;(x 周 围 变动 的 有 用 观点 如 下 (Inathell， 
1989a )。 宽 的 访 :m《zm) 的 目标 是 使 网 格 中 大 量 兴 音 昼 经 元 的 权 值 更 新 方向 相关 。 随 普 户 on 
(z) 宽 度 减少 ， 更 新 方向 相关 的 神经 元 数量 也 在 减少 。 当 自 组 织 映 射 的 训练 在 计算 机 图 形 屏 
幕 显示 时 ， 这 个 现象 尤其 明显 。 以 相关 形式 在 获胜 神经 元 周 周 移动 大 量 自 由 度 是 相当 耗费 计 
算 机 资源 的 ， 就 像 标 准 SOM 算法 一 样 。 相 反 ， 使 用 重 正 规 化 (renomalized)SOM 的 训练 形式 
会 更 好 ， 这 样 我 们 工作 在 较 小 数量 的 正规 化 自由 度 上 。 通 过 使 用 慢 定 宽 虚 的 邻 域 丽 数 户 iom 
(=)， 但 儿 浙 增加 神经 元 的 数量 ， 这 个 操作 很 窜 易 以 离散 形式 完成 。 新 的 神经 元 被 插 到 已 有 
的 神经 元 之 笨 ， 而 SOM 算法 的 平滑 性 保证 新 的 神经 元 以 很 好 的 方式 参与 突 触 自 适 应 
《Luttrell,1989a)。 重 正规 化 SOM 算法 的 概述 在 习题 9.13 给 出 。 


自 适应 过 程 


现在 我 们 来 讨论 特征 映射 自 组 织 形成 过 程 的 最 后 个 过 程 ， 即 突 触 白 适应 过 程 。 为 了 使 
网 络 成 为 白 组 织 的 ， 要 求 神 经 元 7 的 突 触 权 值 咎 攻 w 随 输 人 向 量 x 改变。 问题 是 怎样 作 改 
变 。 在 Hebb 学 习 假 设 中 ， 突 触 权 值 随 着 前 突 触 和 后 突 触 的 激活 同时 发 生 而 增加 。 此 方法 非 
常 适 合 联想 学 习 。 然 而 对 于 这 里 考虑 的 无 监督 学 习 ， 以 Hebb 假设 的 基本 形式 是 不 能 令 人 满 
意 的 ， 原 因 如 下 : 连接 的 改变 仅 发 生 在 一 个 方向 上 ， 这 样 最 终 使 所 有 的 罕 触 权 值 都 趋 于 饱 
和 。 为 了 克服 这 个 问题 ， 我 们 通过 包括 一 个 遗忘 项 &()w; 来 改变 Hebb 假定 ， 其 中 w 是 神 
经 元 7 的 突 触 权 值 向 量 ，g(% ) 是 响应 ”% 的 正 的 标量 函数 。 对 &(y ) 的 惟一 强制 要 求 是 它 的 
"Taylor 级 数 展开 的 常数 项 为 零 ， 这 样 我 们 可 写成 
sy) =0 对 于 7 =0 (9.8) 
这 个 要 求 的 意义 很 快 就 会 变 得 明显 。 给 定 这 样 一 个 函数 ， 我 们 可 以 把 网 格 中 神经 元 / 的 权 值 
向 量 改变 表示 成 












































Am = 1 工 -如 (三 )Wi (9.9) 

其 中 1 是 算法 的 学 习 率 参数 - 右 端 第 一 项 是 Hebb 项 ， 第 二 项 是 遗忘 项 。 为 了 满足 式 (9.8)， 
对 g(y ) 选 择 线性 函数 如 下 : 

(人 ) = 1 (9.10) 
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我 们 苛 以 进一步 简化 式 (49.9)， 置 

太 = 丰 n (9.11) 
用 式 (9.10) 和 (9.10) 代 入 式 (9.9) 得 到 

Aw = Wotz 一 可) (9.12》 


最 后 使 用 离散 时 间 上 彤 式 ， 假 定 在 上 时刻 “神经 元 7 的 忆 值 向 量 为 Wi(a)， 环 新 权 值 向 量 
wz+DIJ) 在 时 刻 二 + 工 逢 定义 为 (Kohonen,1982; Ritter et 相 . ,1992 ; Kohonen ,1997a) : 


它 被 应 用 到 网 格 中 获胜 神经 元 ; 的 拓扑 邻 域 中 药 所 有 神经 元 。 式 (9.13) 其 有 将 效 胖 神 经 元 ; 
的 突 触 权 什 向量 w, 问答 入 向 量 x 移动 的 作用 。 随 着 训练 数据 的 重复 出 更 ， 由 于 仓 域 更 新 使 
得 罕 触 权 值 向 基 趋 于 服从 输入 向 辣 的 分 布 。 因 此 算法 导致 在 输入 空间 中 特征 映射 的 拓 赴 排 
序 ， 这 意味 着 网 格 中 由 邻 神经 元 会 有 相似 的 突 触 权 值 网 量 。 关 于 这 - -点 在 9.5 节 中 ， 我 们 将 
进一步 详 还 。 

式 (9.13) 为 计算 特征 映射 突 触 权 值 所 期 望 的 公式 。 除 了 这 个 公式 之 外 ， 我 们 还 需要 用 
于 选择 邻 虞 本 数 疡 ve (za ) 的 咎 发 式 规则 (9.7) 式 和 秀一 个 用 于 选择 学 习 素 参数 水 mn) 的 启发 式 
规则 。 

学 习 襄 参 数 六 吕 应 恕 式 (9.13) 所 未 的 时 变形 式 ， 这 也 是 它 用 于 随机 逼近 的 归 求 。 特 别 
地 ， 它 应 从 初始 值 m 开 始 ， 然 后 随时 间 “增加 而 逐渐 下 降 。 这 个 要 求 可 以 通过 选择 儿 P) 指 
数 误 减 而 往 足 ， 表 示 为 





从 nm) = mem( - 二) ， 了 = 0,1,2，…， (9.44) 


其 中 , 己 是 SOM 竺 法 的 另 一 个 时 间 常 数 。 即 使 在 式 (9.6) 和 (9.14) 中 描述 的 邻 域 丽 数 宽度 利 
学 习 率 参数 分 别 以 指数 衰减 的 公式 可 能 不 是 最 优 的 ， 但 它们 对 于 以 自 组 织 方式 构成 特征 映射 
是 足够 的 。 


自 适 应 过 程 的 两 个 阶段 ; 排序 和 收 生 


假定 算法 的 参数 是 正确 选择 的 ， 从 完全 无 序 的 初始 状态 开始 ，SOM 算法 怎样 逐步 导致 
一 个 从 输入 空间 抽取 的 激活 模式 的 有 组 织 表示 ， 这 是 令 人 惊奇 的 。 我 们 可 以 把 根据 式 (9.13) 
计算 的 网 络 权 值 的 自 适 应 分 解 为 两 个 阶段 : 排序 或 自 组 织 阶 段 及 其 后 的 收敛 阶段 。 自 适应 过 
程 的 这 中 个 阶段 描述 如 下 (Kohonen,1982,1997a) : 

1. 自 组 织 或 排序 阶段 。 在 自 适应 过 程 的 第 一 阶段 形成 权 值 向 基 的 拓扑 排序 。 这 个 排序 
阶段 可 能 需要 SOM 算法 的 1000 次 迭代 ， 也 许 会 更 多 。 要 仔细 考虑 学 习 率 参数 和 邻 域 冰 数 的 
选择 : 











学 习 率 参数 多 nm) 万 始 值 应 接近 0.1; 然后 多 渐 减少 ， 但 应 保持 在 0.01 以 上 。 这 些 归 
求 的 值 可 以 在 公式 (9.14) 中 选择 m =0.1，m = 1000 得 到 满足 。 

邻 域 国 数 矶 :(m) 的 初始 化 应 包括 以 获胜 神经 元 ; 为 中 心 的 几乎 所 有 神经 元 ， 然 后 随 
时 间 慢 慢 收 缩 。 尤 其 ， 排 序 阶 段 可 能 需要 SOM 算法 的 1000 次 迁 代 或 更 多 ， 侈 仅 对 
一 些 神 经 元 或 获胜 神经 元 本 身 多 许 廊 ,(n) 减 少 到 很 小 的 值 。 假 定 对 离散 映射 使 用 神 


机 (at+1l) = 肌 (R) + 优 丰 矶 af 人 (0 (9.13) 工 
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经 元 二 维 网 格 ， 则 我 们 可 以 设 定 邻 域 贾 数 的 初始 值 m 等 于 网 恪 的 半径 。 由 应 地 我 们 

设 定式 (9.6) 的 时 间 和 常数 n = 1000/logom 。 

2. 收 化 阶段 ， 白 适应 过 程 的 第 二 阶段 需要 微调 特征 映射 从 而 提供 输入 空间 的 准确 统计 

量 。 和 作为 一 般 性 规则 .组 成 政策 阶段 的 渤 代 次 数 至 少 是 网 络 中 神经 元 数目 的 500 倍 。 这 样 收 
化 阶段 可 能 进行 几 千 次 以 至 上 万 次 的 迭代 : 

*。 对 于 好 的 统计 精度 ， 在 收敛 阶段 学 习 参 数 尼 m) 应 该 保持 在 较 小 的 值 上 ， 为 0.01 数 

量 级 。 充 论 旭 何 ， 个 允许 它 上 降 到 零 ; 合 则 ， 网 络 会 聊 人 证 亚 稳定 状态 。 亚 稳定 状 

态 Cmetastable state) 属 于 有 拓扑 缺陷 的 特征 映射 结构 。 式 (9.14) 的 指数 误 减 保证 不 可 

能 进入 亚 稳 定 状态 。 

* 邻 威 师 数 六 ,应 该 仅 包括 获胜 神经 匹 的 最 近邻 域 ， 最 终 减 到 一 个 或 零 个 名 域 钟 经 


克 o 
9.4 SOM 算 法 小 结 


Kohonen 的 SOM 算法 的 本 质 是 它 用 一 个 简单 的 几何 计算 代替 类 Hebb 规则 的 复杂 性 质 和 
出 向 相互 作用 。 算 法 的 主要 构成 /参数 有 : 

*。 根据 一 定 概率 分 布 产 生 激活 借 此 的 连续 输入 空间 - 

*。 以 神经 元 的 网 格 形式 表示 的 网 络 拓扑 ， 它 定义 一 个 离散 输出 空间 。 

。 在 获胜 神经 元 i(x) 周 用 定义 随时 间 变 化 的 邻 域 丽 数 万 of(mn)- 

"， 学 习 率 参数 人 nm) 的 初始 值 足 加 ， 然 后 随 善 时 间 m= 递减 、 但 永 不 为 零 。 
对 于 邻 域 数 和 学 习 率 参数 ， 在 排序 阶段 ( 即 开始 的 大约 1000 次 迁 代 ) 我 们 分 刻 使 用 式 (9.7) 
和 (9.14)。 为 了 好 的 统计 精度 ， 在 收敛 阶段 ?mn) 在 相当 长 的 时 间 内 应 该 保持 一 个 较 小 值 
《0.01 或 更 小 ) ， 一 般 为 几 千 次 和 迭代。 对 于 邻 域 函数 ， 在 收敛 阶段 之 初 ， 它 应 仅 包 含 效 胜 
经 元 的 最 近 的 领域 ， 并 且 最 终 缩减 到 一 个 或 零 个 邻 域 神经 元。 

在 初始 化 后 算法 的 应 用 中 涉及 -个 基本 步 紧 : 取样 ， 相 似 性 上 配 ， 更 新 。 重 复 这 三 个 步 
又 直到 完成 特征 映射 的 形成 。 算 法 小 结 如 下 : 

1. 初始 化 。 对 初始 权 值 向 量 w (0) 选 择 随机 值 。 这 里 惟一 的 限制 是 对 7 = 1,2,…，,?， 
Wi(0) 互 不 相同 ， 其 中 【是 网 格 中 神经 元 的 数目 。 可 能 希望 保持 较 小 的 权 值 。 

另 一 种 算法 初始 化 方法 是 从 输入 向 量 1x, 党) 的 可 用 集 里 随机 选择 权 值 向 量 iw, (0) 和 -1 

2. 取样 。 以 一 定 概率 从 输入 空间 取样 本 x; 向 基 x 表 示 应 用 于 网 格 的 激活 模式 。 向 量 x 
的 维 数 等 于 m- 

3. 相似 性 匹配 。 在 时 间 步 使 用 最 小 Euclid 是 离 准则 寻找 最 匹配 (获胜 ) 的 神经 元 民 x): 

iD = arg mjn xn) 一 风 | 7 = 12 
4. 更 新 。 通 过 用 更 新 公式 
WE+1) = 而 (+ 诬 避 ea)CRCn) 一 有 (Cn 

调整 所 有 神经 元 的 权 值 向 量 ， 其 中 Mnm) 是 学 习 率 参数 ， 帮 ,ca Cn) 是 获胜 神经 元 ix) 周 亲 的 
邻 域 函数 ;为 了 获得 最 好 的 结果 ， 人 共 m) 和 和 态 ,o(m) 在 学 习 过 程 中 是 动态 变化 的 。 

S. 继续 。 继 续 步 晴 2 直到 在 特征 喘 射 里 观察 不 到 明显 的 变化 为 止 。 
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9.5 特征 喘 射 的 性 质 


- 旦 SOM 算法 收 贷 ， 印 算法 计算 的 特征 映射 用 示 输 和 空间 的 重要 统计 特性 。 
开始 令 必 表示 空间 的 连续 输入 (数据 ) 空 间 ， 它 的 拓扑 由 向 是 xE 风 的 度量 关系 定义 。 令 员 
表示 空间 的 离散 输出 空间 ， 其 拓扑 由 安排 -组 神经 无 作为 网 格 的 计算 节点 来 髓 予 。 令 理 表 
示 陈 为 特征 映射 的 非 线性 变换 ， 它 映射 输 人 空间 史 到 输出 空间 中， 表示 为 
再 : 虹 一 好 《9.15) 
式 (9.15) 吕 看 成 式 (9.3) 的 抽象 ， 式 (9.3) 定 义 为 响应 输入 向 量 x 闻 产 生 的 获胜 神经 元 区 zx 的 
位 稼 。 例 如 ， 在 神经 生物 学 中 输 和 人 空间 史 可 以 表示 密布 于 整个 体 表 面 的 体感 觉 接受 器 的 坐标 
集 - 相应 地 ， 输 出 空间 吕 表 示 位 于 限制 体感 觉 接受 器 的 人 脑 皮 层 中 的 神经 元 集 。 





四 
































给 定 输 人 问 量 x，SOM 算法 首先 根据 eeeeeee 
特征 映射 中 确定 在 输出 空间 % 中 的 最 佳 匹 人 
配 或 获胜 神经 元 。 神 经 元 ix) 的 突 触 权 值 ee evP ee ee 关 
向 量 w, 可 以 视 为 神经 元 指向 输入 空间 的 ee 
指针 ; 即 疝 最 Wi 的 宾 触 元 素 可 以 视 为 神 No ae/e ee。。。 
经 元 ; 投影 到 输入 空间 的 图 像 坐标 。 这 其 人 
个 操作 在 图 9-4 中 描绘 。 特 征 遇 射 中 有 革 
些 重要 性 质 : 7 

性 质 1 输入 空间 的 近似 ”由 输出 空 局 
问 几 的 突 角 要 值 向量 ;Wi | 的 集合 未 示 的 特 /|  / \ 

种 胸 射 四 对 输入 空间 中 提供 一 个 好 的 近 | 下 at 
似 。 

SOM 算法 的 基本 目标 是 通过 寻找 原型 
到 E 史 的 一 个 较 小 的 集合 存储 输入 向 量 
xGE% 的 一 个 大 集合 ， 从 而 对 原始 输 和 空间 SR 
光 提 供 一 个 好 的 近似 。 刚 才 描述 的 思想 的 人 
理论 基础 植 根 于 向 量 村 化 理论 (veetor 输入 向 量 。 码 字 
quantization theory)， 它 的 动机 是 维 数 的 削 > 各 码 器 Eee 
减 或 者 是 数据 的 压缩 (Cermsho and Gmay， [| 国 
1992 )。 因 此 给 出 这 个 理论 的 简要 讨论 是 
适宜 的 。 重建 向 量 

考虑 图 9.5， 其 中 e(x) 征 为 输入 向 量 汪 光 。 

和 的 编码 器 而 x(e) 作 为 e(zg 的 解码 器 。 向 一 Ce 


量 x 从 满足 加 有 概率 密度 函数 挛 (x) 的 训 
练 样本 ( 即 输入 空间 多 ) 中 随机 人 选择 。 通 过 
变化 函数 c(z 切 和 X (人 天 定 最 优 编 码 - 解码 方案 使 得 极 小 化 由 


万 - 了 - axFCz)d(xx) (9.16) 











[5] 
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定义 的 期 望 关 真 ， 其 中 引入 内 子 12 是 为 了 袁 达 方 使 ，d(x,x) 是 拓 真 (distortion) 度 量 ， 积 分 
在 假定 维 数 为 mm 的 整个 输入 空间 虹 上 进行 。 拉 真 度 员 &X， 和 ) 的 一 个 常用 选择 号 输入 问 基 
和 重建 向 量 双 之 间 的 Paclid 此 离 的 平方 ; 妈 
dx ) = xl = (YY) (9.17) 
这 样 我 们 可 把 式 (9.16) 重 写 为 
万 - 引 zz)1x-x 人 (9.18) 


期 望 拓 真 刁 最 小 化 的 必要 条 件 在 广义 Lieyd 算法 天 中 (Gersho and Gray,1992)。 条 件 是 两 方面 
的 ; 











条 件 1, 给 定 输入 向 量 x， 选 择 码 字 e= ez 使 其 最 小 化 平方 误 益 失 真 | x- x(e) ||?。 
条 件 2. 给 定 但 字 c， 计 算 重 斧 向 量 x =x (c) 作 为 满足 条 件 ! 的 输 和 向量 x 的 中 心 。 
条 件 | 称 为 最 近邻 编码 规则 。 条 件 1 和 2 观 关 
意味 着 平均 失真 六 关于 久 玛 器 e(x) 和 解码 器 
x(c) 各 自 的 变化 是 稳定 的 - 为 了 实现 向 量 量 输入 向量 
化 , 广义 Lord 算法 以 集中 方式 运行 。 基 本 人 1 
上 ， 算 法 包 会 交 葵 控 照 条 件 1 优化 缩 但 器 c(x) 
和 按照 条 件 2 优化 解码 器 x (ce) ， 直 到 期 望 失 
真 石 达 到 一 个 最 小 。 为 了 训 服 局 部 最 小 问题 ， 。 村 和 有 


























可 能 需要 以 不 同 官 值 运行 广义 Lloyd 算法 若干 
次 。 
广义 Lord 算法 和 SOM 算法 紧密 相关 ， 一 
如 Lateell(1989b) 所 示 。 可 以 通过 考虑 图 9-6 图 9-6 噪声 编码 器 - 解码 器 模 开 


所 泵 的 系统 描述 这 种 关系 的 形式 ， 其 中 在 编码 器 e(x) 之 后 我 们 引入 了 独立 于 数据 的 噪声 
过 程 "。 哄 声 " 附加 在 编码 器 和 解码 器 之 间 的 虚构 的 “通信 信道 "上 ， 它 的 目的 是 说 明 输 出 
玛 字 ec(3) 可 能 拓 真 的 可 能 性 。 在 疼 9- 6 所 示人 异型 的 基础 上 ， 可 以 考虑 期 望 失 真 的 一 种 修 
正 形式 


六 = 下 aaptDf 人 rz-xteco + 有 有 (9.19) 


中 < ) 为 加 性 蝶 声 "的 概率 密度 函数 (pdf) ， 第 二 个 积分 是 对 这 个 噪 卢 的 所 有 可 能 实现 。 
根据 广义 Hoyd 和 革 法 描述 的 策略 ， 对 图 9-6 所 示 的 模型 可 考虑 两 个 不 同 的 优化 ， 一 个 属 

于 编码 器 而 另 一 个 属于 解码 器 。 为 了 找到 给 定 x 的 最 优 编码 器 ， 我 们 需 此 期 望 失真 度量 六 

对 编码 向 量 e 的 久 导 数 。 利 用 (9.19)， 可 得 


or 是-xto (9.20) 


3c el)+y 
为 了 找到 给 定 * 的 最 优 解码 器 ， 我 们 需要 期 望 失真 度量 D, 对 解码 向 量 X(e) 的 篇 导数 。 利 
式 (9,19)， 可 得 


本 
粕 












































9 
axr(e) 一 


因此 ， 根 据 式 (9.20) 和 (9.21)， 以 前 陈述 的 广义 Lloyd 算法 的 条 件 1! 和 条 件 2 必须 修改 如 下 





-| aareorte- eco)(x- xfe) (9.21) 
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(Luttrell，1989b) : 
条 件 1. 给 定 输入 向 最 x， 选 择 码 字 c= ec(x) 使 其 最 小 化 失真 度量 


厂 ， = 全 ax-x(e(x) + (9.22) | 和 ] 


条 件 工 , 给 定 码 子 c， 计 算 重 爸 向 量 办 (e) 使 其 满足 条 件 
「 dxXF(X)r(e - ec(X)) 和 
xX(e = 二 - 
人 espeorte- em) 
设置 式 (9,21) 中 的 偏 导数 ?Da {c) 为 0， 然 后 解 出 忆 (e) 可 得 式 (9.23)。 
图 9-5 描 述 的 模型 可 作为 图 9-6 摘 述 的 模型 的 特殊 情形 。 具 体 地 ， 如 果 设 症 噪 声 ”的 概 
率 密 度 函 数 x(?) 等 于 Dirac delua 函数 8y)， 条 件 TI 和 条件 开 分 别 归结 为 广义 Lloyd 算法 的 条 
件 1 和 条 件 2。 
为 了 简化 条 件 I， 假 定 x(?) 为 "的 光滑 现 数 。 可 以 证 明 式 (9.22) 定 义 的 失真 度量 丸 的 
二 失 近似 包含 两 项 (Luttel,1989b) : 
。 常规 失真 硕 ， 由 平方 误差 失真 | x -和 (c) |: 定义 。 
” 由 孙 声 模型 x(7) 引 起 的 曲率 (curvature) 项 。 
假设 曲率 项 小 ， 对 于 图 9-6 的 模型 条 件 [可 以 近似 为 图 9-5 的 无 噪声 模型 的 条 件 1。 这 样 又 
使 条 件 I 变 成 以 前 的 最 近邻 编码 规则 。 
至 于 条 件 JI， 可 以 利用 随机 下 降 学 习 实现 它 。 具 体 地 ， 用 因子 | 4xAtz) 从 输入 空间 多 
随机 选择 输入 向 量 x， 并 孔 更 新 重 构 向 量 x (e) 如 下 (Tauttrell,1989b) : 
xue) Rutc)+rc-ex)[x -wwe)] 《9.24》 
其 中 1 为 学 习 率 参数 ，c(x) 为 条 件 1 的 最 近邻 编码 近似 。 喝 新 式 (9.24) 由 检查 式 (9.21) 的 偏 
导数 可 得 。 这 个 更 新 应 用 于 所 有 的 “， 对 此 我 们 有 
xf(c -cx)) > 0 (9.25) 
可 以 认为 式 (9.24) 描 述 的 梯度 下 降 过 程 为 式 (9.19) 的 失真 度量 D, 的 一 种 最 小 化 方法 。 也 就 
是 ， 式 (9.23) 和 (9.24) 本 质 是 同类 型 的 ， 区 别 在 于 式 (9.23) 为 抵 处 理 方式 的 而 (9.24) 为 连续 
的 方式 ( 即 经 过 流 的 方式 )。 
更 新 式 (9.24) 等 同 于 式 (9.13) 的 (连续 )SOM 算法 ， 记 住 在 表 9-1 中 所 列 的 对 应 关系 。 因 
此 ， 可 以 说 用 于 向 量 量 化 的 广义 floyd 算法 为 具有 0 邻 域 大 小 的 SOM 算法 的 批 处 理 训 练 模 
式 ; 对 0 邻 域 ，x(0) = 1。 注意 ,为 了 从 SOM 算法 的 批 处 再 方式 得 到 广义 Lioyd 算法 我 们 无 
需 作 任何 近似 ， 因 为 当 邻 域 为 0 宽度 时 曲率 项 (和 所 有 高 阶 项 ) 不 作 任 何 贡献 。 
表 91 在 SOM 算法 和 图 9-6 的 模型 之 间 的 对 应 


(9.23) 
































图 9.6 的 编码 - 解码 模型 SOM 算法 
俯 码 器 cCxJ 最 佳 匹配 神经 括 :(x) 
重 构 向 量 x(e 突 触 权 值 向 量 mw 
概率 密 庶 蚌 数 x(e- e(x)) 领域 丽 数 on 

下 面 给 出 讨论 需 注意 的 重要 之 处 : 





” SOM 算 法 为 向 量 量 化 算法 ， 它 提供 输 人 空间 史 的 良好 近似 。 这 个 观点 提供 导出 SOM 
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算法 的 曙 一 种 途径 ， 如 式 (9.24) 的 示例 。 

。 根据 这 个 观点 ，SO4 算法 中 的 邻 域 丽 数 六 ,io 有 一 个 概率 密度 两 数 的 形式 。 在 Lattrell 
(1991a) ， 考 虑 对 网 9-6 的 模型 中 噪 启 ， 谷 各 是 合适 的 零 均 值 高 斯 模型 。 内 此 我 们 对 
采用 式 (9.4) 的 高 斯 邻 域 本 数 又 有 了 “个 理论 依据 。 

用 求 和 作为 对 式 (9.23) 右 端的 分 子 和 分 甘 的 积分 的 近似 ， 批 处 理 SOM“ 仅仅 是 式 (9.23) 的 重 
了 于， 注意 在 SOM 算法 的 这 种 形式 中 ， 和 输入 模式 呈现 给 网 络 的 顺序 对 特征 映射 的 最 终 形式 没 

有 影响 ， 月 无 南 学 习 闵 调度 。 促 算法 仍 需 利用 邻 藉 函数 。 

性 质 2 拓扑 排序 通过 SOM 算法 计算 的 特征 映射 盏 是 拓扑 有 序 的 ， 意 味 着 网 格 中 神 
经 元 的 空间 位 置 对 应 于 输入 模式 的 特定 区 域 或 特征 。 

拓扑 排序 的 特性 ”是 更 新 公式 (9.13) 的 直接 结果 ， 它 使 奖 胜 神经 元 ix) 的 权 值 向 最 w， 
移 向 输入 向 量 x。 它 同样 对 距 获 胜 神经 元 i(x) 近 邻 的 神经 元 /的 突 触 权 值 问 量 到 的 移动 有 
作用 。 央 此 我 们 可 以 将 特征 映射 画 看 成 一 个 从 性 网 或 虚拟 网 ， 它 有 在 输出 空间 g%g 中 描述 的 一 
维 或 两 维 的 网 格 ， 并 且 它 的 节点 具有 权 值 作为 输 和 人 空间 多 中 的 侍 标 (Ritter,1995)。 因 此 算法 
药 总 的 月 标 可 以 陈述 如 下 : 

指针 或 原型 以 突 触 权 值 向 量 W 的 形式 逼近 答 入 空间 中， 使 得 特征 映射 中 以 这 样 一 种 方 
式 提供 根据 某 个 准则 而 言 表征 输入 向 量 xG 叶 的 重要 特征 的 可 信和 球 表 示 。 


特征 觅 射 中 通常 在 输入 空间 多 中 显示 ， 特 别 地 ， 所 有 的 指针 ( 即 突 触 权 向 繁 ) 显 示 为 点 ， 相 邻 
神经 元 的 指针 按照 网 格 的 拓扑 用 线 相连 。 内 此 ， 使 用 连 线 将 丙 个 指针 W ， 允 连 起 来 ， 表 示 
相应 神经 地 和 在 网 格 中 是 相 邻 神经 元 

性 质 3 密度 匹配 ”特征 映射 中 反映 和 给 入 分 布 在 统计 上 的 变化 : 在 输入 空间 叶 中 样本 向 
量 x 以 高 的 概率 抽取 的 区 城 遇 射 到 给 出 空间 出 的 更 大 区 域 ， 从 而 比 在 吕 中 样本 向 量 X 以 低 的 
概率 抽取 的 区 域 有 更 好 的 分 辩 率 。 

令 户 ( 表 示 随 机 输 和 人 加 量 x 的 多 维 ndf( 概 率 帘 度 丽 数 ) 。 由 定义 ， 这 个 pdf 在 整个 输入 
空间 上 的 积分 必须 等 于 1: 





















































人 aooax = 1 














令 中 (加 皮 示 师 身 才 大 (magyigication) 因子， 定义 为 输入 空间 多 的 小 体积 dx 中 的 神经 元 个 数 。 
放大 因子 在 整个 输 和 空间 % 的 积分 一 定 等 于 网 络 中 的 神经 元 总 数 1， 即 
人 acoax -1 (9.26) 
对 于 准确 匹配 输入 密度 的 SOM 算法 ,我们 要 求 (Amari ,1980) 
< 记 ( 划 (9.27) 
这 个 性 质 意味 着 ， 如 果 输 和 空间 中 的 一 个 特殊 区 域 包含 经 常 发 生 的 刺激 ， 屠 么 与 刺激 出 现 较 








少 的 输入 空间 的 区 域 相 比 ， 它 将 用 特征 肌 射 中 更 天 的 区 域 表 示 。 

一 般 地 ， 在 二 维特 征 映射 中 放大 因子 mm(x) 不 能 表示 为 输 和 人 向量 x 的 概率 猪 度 两 数 育 (z) 
的 一 个 简单 函数 。 只 有 在 一 维特 征 映射 时 才 可 能 导出 这 样 的 关系 。 对 这 种 特殊 人 情况， 我 们 发 
现 与 早 些 的 推测 (Kohonen,1982) 相 反 ， 它 的 放大 因子 m(x) 并 不 与 大 ( 双 成 比例 。 基 于 采用 的 
编码 方法 ， 在 文献 中 报告 了 两 个 不 园 的 结果 : 
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人 方法 产生 结果 (Ritter,1991) 


亚 (x) ec A() 




















1. 最 小 失真 (畸变 ) 编 码 ， 根 据 这 个 编码 ， 式 (9.22) 的 失真 测度 中 的 曲率 项 和 高 阶 项 由 于 
噪声 模型 r(V) 仍 然 保留 。 这 个 编码 方法 可 玉 产 牛 结果 
mOo c 产 (9 
这 与 标准 的 癌 昌 量化 器 得 到 的 结果 相 阿 (Luttrell ,1991a)。 
2. 最 近邻 编码 ， 如 同 在 SOM 算法 的 标准 形式 中 ， 它 出 现在 忽略 


(9.28) 
项 的 时 候 。 这 个 编 


(9.29》 [46| 


我 们 前 而 关于 族 经 常 发 后 的 刺激 可 以 在 特征 瞻 射 中 由 更 大 的 区 域 来 表示 的 陈述 仍然 成 立 ， 
输出 





提 然 足 用 式 (9.27) 中 描述 的 理想 条 件 的 
失真 形式 。 

作为 一 个 一 般 规则 (被 计算 机 仿真 确 
认 ), 由 SOM 算法 计算 的 特征 映射 往往 
趋向 于 过 高 表示 低 输入 密度 区 域 和 过 低 
胡 示 高 输入 密度 区 域 。 横 何 话 说 ，SOM 
算法 不 能 为 输入 数据 加 有 的 概率 分 布 提 
供 可 信赖 的 胡 示 ! 。 

性 质 4 ”特征 选择 在 具有 非 线性 
分 布 的 输入 空间 中 给 定 教 据 ， 自 组 织 映 
出 能 够 为 逼近 国有 分 布 选择 一 组 最 好 的 
特征 。 

这 个 性 质 是 性 质 1 至 性 质 3 的 自然 
结论 。 它 使 人 想起 前 一 章 讨论 的 主 分 量 
分 析 的 思想 ,但 是 如 图 9-7 所 示 ， 它 们 
有 一 个 重要 的 区 别 。 在 图 9 7a 中 展示 被 
加 性 噪声 损坏 的 线性 输入 - 输出 映射 导 
出 的 零 均 值 数 据点 的 二 维 分 布 。 这 种 傅 
况 下 ， 主 分 量 分 析 工 作 得 很 好 : 它 告 诉 
我 们 ， 在 图 9.7a 中 的 "线性 ”分布 的 最 好 
描述 是 定义 成 通过 原点 且 平 行 于 数据 相 
关 算 阵 的 最 大 特征 值 对 应 的 特征 向 量 平 
行 的 直线 ( 即 一 维 的 “ 超 平面 ")。 接 下 去 
考虑 图 9-7b 所 描述 的 情况 ， 这 是 受 零 均 
值 加 性 噪 志 损 杯 的 非 线性 输入 ~- 输出 映 
射 的 结果 。 在 这 第 二 种 情形 从 主 分 量 分 
析 计 算 的 直线 逼近 不 可 能 提供 可 接受 的 
数据 描述 。 钥 一 方面 ， 利 用 建立 在 一 维 
神经 元 网 格 的 自 组 织 瞻 射 由 于 它 的 扳 扑 
























































有 序 性 质 能 够 克服 这 个 通 近 问题 。 后 一 个 逼近 在 图 9-7b 中 说 明 。 
精确 地 说 ， 我 们 可 以 说 自 组 织 特征 映 庙 提供 所 谓 主 梧 线 吕 (principal curve) 或 主 十 面 








上 日 


图 9-7 


可 线 忻 输入 - 输出 映射 产生 的 一 维 分 布 
了 ) 非 线性 输入 - 输出 孔 射 产生 的 二 维 分 布 
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(prineipal surface) 的 离散 折 近 (Hastie and Saetzle,1989) ， 因 此 可 以 看 成 是 主 分 量 分 析 的 非 线 性 


推广 。 


9.6 计算 机 仿真 


由 两 维 分 布 驱动 揭 两 维 网 格 

我 们 使 用 计算 机 仿真 来 说 明 SOM 等 法 的 行为 ， 通 过 研究 100 个 神经 元 组 成 的 网 络 ， 排 
列 成 10 行 和 10 列 的 两 维 网 恪 。 网 络 用 二 维 输入 向 量 x 训练 ， 它 的 分 量 zx 和 如 均匀 分 布 在 
区 域 |(-1<z<+D; (-l<zma<+li 上 。 为 了 初始 化 网 络 ， 突 触 权 值 从 一 个 随机 集合 抽 


取 -。 














图 9-8 显示 训练 网 络 学 习 表示 输入 分 布 的 二 个 阶段 。 图 9-8a 显示 用 来 训练 特征 映射 的 
LE 数据 的 均匀 分 布 。 图 9-& 显示 随机 抽取 的 突 触 权 值 的 初始 值 。 图 9_ ge 和 疼 9_8d4 分 别 表示 





了 在 排序 阶段 和 收敛 阶段 完成 后 突 触 权 值 向 量 的 值 ， 画 出 输入 空间 中 点 的 图 形 。 在 图 9-8 中 
将 网 络 中 相 邻 神经 元 用 线 连 起 来 (通过 行 和 列 )。 
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图 9-8 
a 输 人 数据 分 布 b) 二 级 网 格 初始 情况 “) 排 序 阶段 之 后 网 格 情 况 ”中 ) 收 雪 阶 段 之 后 网 格 情况 


图 9-8 所 示 的 结果 展现 表征 SOM 算法 学 习 过 程 特点 的 排序 阶段 和 收敛 阶段 。 图 9-8e 显 


[是 j 示 排 序 阶段 ， 映 射 展 开 形 成 的 网 格 。 在 这 个 阶段 之 后 神经 元 映射 为 正确 的 排序 。 在 收 伍 阶 段 
映射 散 开 充满 输 和 空间。 在 第 二 阶段 结束 后 ， 如 图 9-8d 所 示 ， 有 映射 中 神经 元 的 统计 分 布 接 











启 组 名 哮 千 


3 了 35 








近 输 人 向 量 的 分 布 ， 除 了 一 些 边缘 效果 之 外 。 比 较 图 9- 8d 中 特征 有 映 射 的 最 终 状 态 和 图 9-8a 


的 输 人 均匀 分 布 ， 
人 性 。 











我 们 看 出 收 急 阶段 映射 的 调整 抓 住 了 可 在 给 入 分 布 中 看 到 的 局 部 不 规则 


SOM 算法 的 拓扑 排序 性 质 在 图 9-8d 得 到 很 好 说 明 。 尤 其 观察 到 算法 (在 收敛 之 后 ) 抓 住 
了 输入 中 均匀 分 布 的 固有 拓扑 。 图 9-8 所 示 的 计算 机 仿真 的 输入 空间 只 和 输出 空间 沁 都 是 两 


维 的 。 


由 两 维 分 布 驱动 的 一 维 网 格 


我 们 现在 考查 当 输 人 空间 多 的 维 数 大 于 输出 空间 总 的 维 数 的 情况 。 尽 管 不 匹配 .特征 映 
射 忠 常常 能 形成 输 和 分布 的 拓扑 表示 。 图 9-9 显示 在 特征 映射 演化 过 程 中 的 三 个 不 同 的 阶 
段 ， 它 的 初始 化 如 图 9-9b 所 示 ， 从 和 抢 形 中 抽取 数据 进行 训练 如 图 9-9a 所 示 . 但 是 ， 这 次 计 
算是 在 100 个 神经 元 的 一 维 网 格 中 进行 的 。 图 9- ge 和 图 9 9d 分 别 表示 排序 和 收敛 之 后 的 等 


年 映射 。 这 里 我 从 
































看 到 为 了 尽 可 能 紧密 地 填充 矩形 从 而 提供 二 维 输入 空间 史 的 固有 拓扑 的 良 




















好 近似 ， 用 算法 计算 的 特征 映射 是 非常 失真 的 。 在 图 9-9d 所 示 的 近 和 似 曲 线 类 于 Peane 曲线 























〈Peano curve)。 以 





9-9 的 特征 瞻 射 为 例 的 这 种 运算 被 称 为 维 数 麟 减 (dimensionajity reduction) ， 





其 中 输入 空间 &% 由 将 它 投 影 到 的 低 维 输出 空间 尺 来 表示 。 
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图 9-9 
引 ) 二 维 输入 救 据 分 布 b) 一 维 网 格 初始 情况 “) 排 序 阶段 之 后 的 网 格 情况 ”中 收敛 阶段 之 后 的 网 格 情况 


本 | 
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仿真 的 参数 设置 























b6 图 9-10 展示 用 于 一 维 网 格 试验 的 邻 域 丽 数 访 ,,(m) 和 学 习 率 参数 人 mn) 随 时 间 ( 即 回合 次 


数 ) 的 变化 。 图 9"- 10a 所 示 的 邻 域 丽 数 参数 o(n) 开 始 时 初始 值 m = 18， 然 后 在 排序 阶段 的 
1000 次 迭代 中 训 减 到 大 约 为 1。 在 同一 阶段 ,学 习 率 参数 多 mn) 开始 时 初始 值 wm = 0.1， 然后 
训 减 到 0.037。 图 9 10e 表示 位 于 一 维 网 格 的 中 点 的 获胜 神经 元 周围 神经 元 的 初始 高 斯 分 布 。 























9-10d 显 示 在 排序 阶段 结束 后 邻 域 函 数 的 形状 。 在 收敛 阶 段 ， 学 习 率 参数 在 5000 步 选 代 


中 从 0.037 线 件 下 降 到 0.001。 在 同一 阶段 ， 邻 域 函 数 基 本 上 减少 到 0。 
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图 9-10 


a) 分 域 函 数 和 参数 "( nj 呈 指 数 衰 减 ”日 学习 率 参 数 叭 mn) 的 指数 产 闫 “) 高 斯 邻 域 一 归 的 初始 形状 
9) 排 序 阶段 结束 后 ( 即 收效 阶段 开始 ) 食 域 函 教 的 形状 


除了 邻 域 函数 是 二 维 的 外 ， 图 9-8 涉及 的 二 维 网 格 的 计算 机 仿真 在 排序 阶段 和 收敛 阶段 


的 说 明 与 一 维 网 格 的 情况 相似 。 和 参数 o( nm) 从 初始 值 w = 3 天 


F 始 ， 然 后 在 1000 步 迁 代 中 减少 





5] 到 0.75。 图 9-11 显示 在 10x 10 的 二 维 神 经 元 网 招 中 获胜 神经 元 在 点 (7, 8) 和 m = 3 时 二 维 


高 斯 邻 域 函 数 而 ;的 初始 值 。 





霹 绍 困 跳 关 337 








图 %11 在 10x10 的 一 维 神经 元 格 形 中 获胜 神经 元 在 点 (7.8) 
处 的 二 维 高 斯 邻 域 范 数 的 初始 情况 


9.7 学 习 向 最 量化 


在 前 面 "6 节 讨 论 的 向 量 量化 (veelor 二 [ 现 
quantization) ， 是 利用 输入 向 量 的 固有 结构 进行 数据 相 
压缩 的 技术 (Cersho and Gray,1992)。 县 体 地 , 输入 空 二 e 
间 被 分 成 一 些 不同 区 域 ， 并 且 对 每 一 个 区 域 定义 一 o 
个 重建 向 量 。 当 一 个 新 的 输入 向 量 提供 给 量化 器 人 
时 ,首次 确定 向 量 所 在 的 区 域 并 旦 利用 该 区 域 的 重 二 | 
构 向 量 表 沙 输入 向 量 。 这 样 。 使 用 重建 向 量 的 编码 | 1 8 
替代 原始 输入 向 量 来 存 销 或 传输 ， 以 一 定 的 失真 代 入 
价 可 实现 在 存储 或 传输 带宽 上 的 重大 节省 。 可 能 的 ? 二 
重 构 向 量 集 被 称 作 量 化 器 的 码 书 (code book)， 而 它 A\ 

的 成 员 被 称 为 码 字 (code word)。 和 

一 个 有 最 小 编码 失真 的 向 量 量化 器 被 称 作 
Yoronoi 单元 或 最 近邻 域 量化 器 ， 因 为 关于 输入 空间 
点 集 的 Voronoi 单元 对 应 于 基于 Euelid 度 重 按 最 近邻 图 912 包含 4 个 单元 的 Yaonoi 图 
规则 对 该 空间 的 剖 分 (Cermsho and Gray，1992)。 图 《经 下 FE 许可 , 改 自 R.M.Gray,1984) 
全 12 显示 一 个 输 和 人 空间 分 成 四 个 Voronoi 单元 及 它们 相关 的 Voronoi 向 量 ( 即 重 梅 向 最) 的 例子 。 
每 个 Yoronoi 单元 包含 输 人 空间 中 的 那些 点 ， 它 们 在 所 有 的 点 中 最 接近 Yoronoi 向 量 。 

SOM 算法 提供 一 个 无 监督 方式 下 计算 Voronoi 向 量 的 逼近 方法 ， 其 逼近 通过 特征 且 射 中 
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神经 元 突 触 权 值 向 量 确 定 ; 这 仅仅 是 在 9.6 节 中 讨论 的 SOM 算法 的 性 质 1 的 重新 陈述 。 如 在 
图 9-13 所 描绘 的 一 样 ， 特 征 映射 的 计算 可 以 视 为 自 适应 解决 模式 分 类 问题 两 步 中 的 第 一 步 。 
第 二 步 是 学 习 册 量 量 化 ， 它 提供 一 个 最 后 细 调 特征 映射 的 机 制 。 


输入 自 组 织 特征 学 习 向 量 “六 | 类 中 
觅 射 量化 器 :上 标 时 


教师 
图 9-13 利用 自 组 织 特征 耿 射 和 学 习 向 量 量化 器 的 自 适应 模式 分 类 枚 图 


学 习 向 量 量化 器 (jeaming vector quantization,LVQ )[ 是 监督 学 习 技 巧 ， 它 使 用 分 类 消息 来 
轻微 移动 Yemnoi 向 量 ， 以 便 提 高 分 类 器 的 决策 区 域 质量 。 从 输入 空间 随机 抽 取 一 个 输入 向 
量 xs。 如 果 输 入 向 量 x 的 类 别 标 号 和 Voronoi 向 量 w 符合 ，Voronai 向 量 w 向 输 人 向 量 x 的 方 
向 上 移动 。 如 果 相 反 ， 输 入 向 量 x 的 类 别 标 号 和 Voronoi 向 量 w 不 符合 ，Voronoi 向 量 w 向 离 
并 和 输入 向 量 x 的 方向 移动 。 

设 1w, 已, 表示 Vonmnei 向 量 集 ，ix: 局 ;表示 输入 (观察 ) 向 量 集 。 假 定 输入 向 量 多 于 
Veronoi 向 量 ， 在 实际 中 这 是 典型 的 情况 。 学 习 向 量 量化 (LVQ) 算 法 如 下 : 

(iD 假定 Voronoi 向 量 w. 距离 输入 向 量 x 最 近 。 令 @。 表示 Voronoi 向 量 w.。 的 类 别 ， oo 

表示 向 量 x, 的 类 别 标号 。Voronai 向 量 w. 调整 如 下 : 
”如 果 6。= 4 ， 则 























wo(m+l) = Wo)+oacixs 一 罗 (z)] (9.30) 
其 中 0<a,<1 
，” 相反， 如 果 &。=%.。 . 则 
Wena+ 有 = we(a) -an[x 一 We(Co)] (9.31) 


(这 其 他 Vonoi 向 量 不 作 调整 。 

我 们 希望 学 习 系数 m 随 着 迭代 次 数 = 的 增加 丽 递减 。 例 如 w 初始 值 为 0.1 或 更 小 ， 然 
后 随 着 ”线性 递减 。 在 通过 输 和 数据 几 遍 之 后 ，Voronoi 向 量 通常 收 敏 并 且 训 练 完 成 。 然 而 ， 
如 果 应 用 方法 不 小 心 ， 可 能 会 遇 到 困难 。 


9.8 计算 机 实验 ， 自 适应 模式 分 类 


在 模式 分 类 中 ， 第 一 步 和 最 重要 的 一 步 是 特征 选择 (抽取 )， 它 一 般 在 无 监督 方式 下 完 
成 。 第 一 步 的 目标 是 选择 小 的 合理 特征 集合 ， 在 其 中 { 待 分 类 的 ) 输 人 数据 的 本 质 信息 内 容 被 
集中 起 来 。 由 于 在 9.5 节 讨 论 的 自 组 织 肌 射 性 质 4， 它 适合 特征 选择 的 任务 ， 尤 其 是 当 输入 
数据 由 非 线 性 过 程 产生 时 。 

模式 识别 的 第 二 步 是 实际 的 分 类 ， 从 输入 数据 选择 特征 赋予 每 个 类 。 尽 管 自 组织 映 射 设 
计 用 来 充当 分 类 的 角色 ， 为 了 最 好 的 性 能 建议 对 分 类 的 第 二 步 结 合 监 督学 习 程序 运行 。 自 组 
织 映 射 和 监督 学 习 模式 的 结合 构成 本 质 上 混合 的 自 运 应 模式 分 类 的 基础 。 

这 种 模式 分 类 的 混合 方法 可 以 采取 不 同 的 形式 ， 取 决 于 监督 学 习 格 式 是 怎样 实现 的 。 一 
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个 简单 的 格式 是 使 用 前 一 节 描述 的 学 习 癌 基 丰 化 器 ,， 这 翌 我 们 有 如 图 9- 13 所 示 的 两 步 肯 着 
应 模式 分 类 器 。 

在 这 个 实验 里 我 们 再 次 讨论 标号 {( 类 人 ) 和 慰 纯 2( 类; ) 的 部 分 重 短 一 维 高 斯 分 布 模 式 
的 分 类 ， 在 第 4 章 里 首次 描述 时 它 涉 及 用 反 调 传播 算法 训练 的 多 层 感知 器 的 应 用 。 试验 所 用 
数据 的 散 列 图 如 图 4- 13 所 示 。 
9_14a 显示 完成 SOM 算法 训练 后 5x5 神经 元 的 二 维特 征 映 射 ， 特征 映射 已 被 标定 ， 
根据 对 从 输入 分 布 中 抽取 的 测 武 数据 的 响应 每 个 神经 乒 被 指定 为 一 个 类 或 另 一 个 类 , 图 [名 | 
9- 14b 显 示 由 特征 映射 运行 不 身 所 实现 的 决策 边界 。 
9-14c 显示 利用 LVYQ 以 监督 方式 调整 后 的 修正 的 特征 映射 ， 图 9-14d 时 示 SOM 和 
LVgQ 算法 联合 产后 的 决策 边界 。 比 较 这 两 个 图 以 及 它们 在 图 9- 14a 和 图 9-14b 对 应 部 分 ,我 






























































图 9-14 
中) 标定 后 的 自 组 织 映 射 b) 部 分 a 的 特征 呈 射 所 建立 的 决策 边界 
学 习 向 量 量化 后 标定 的 映 币 ”d) 部 分 “的 特征 映射 所 建立 的 决策 边界 
表 %-2 给 出 特征 映射 自身 和 特征 映射 结合 学 习 向 量 基 化 器 的 模式 分 类 性 能 的 小 结 。 其 中 
给 出 的 结果 为 10 次 独立 试验 所 得 的 结果 ， 每 次 试验 涉及 使 用 30 000 个 模式 作为 测试 数据 。 
在 每 次 试验 中 使 用 LVQ 分 类 性 能 总 有 提高 。 特 征 映射 本 身 的 平均 分 类 性 能 为 79.61 色 ， 而 特 
征 映 射 结合 学 习 向 量 量 化 器 的 平均 分 类 性 能 为 80.52 和 ， 这 表示 对 特征 映射 本 身 有 0.91% 的 
提高 。 作 为 参考 框架 ， 我 们 回想 这 个 试验 的 最 优 Bayes 分 类 器 性 能 为 81.51 儿 。 
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表 92 对 用 5x5 网 格 的 二 维 重 大 高斯 分 布 的 计算 机 试验 分 类 性 能 [百分比 ) 小 结 
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入 征 映射 和 学 司 用 
二 内 和 全 矶 时 白 届 狂 征 映 映 和 学 习 疝 生 








景 化 器 串联 结合 
1 9.05 0 
2 了 .9 80.56 
3 79.41 81.17 
4 三.38 29. 下 
5 80.30 80.43 
6 79.5 80.36 
7 79.19 80.86 
8 .4 8.24 
9 30.00 80.51 
10 80.32 81.06 
平均 9.61 贷 0.52 估 
9.9 分 层 向 量 量化 


在 9.6 节 自 组 织 特征 映射 的 性 质 ] 的 讨论 中 ， 我 们 指出 在 向 量 量化 方面 它 与 广义 Diord 
算法 紧 铭 相关 ， 癌 基 量 化 是 有 损 (jossy) 数 据 压 缩 的 一 种 形式 ， 有 损 的 意思 足 指 一 些 包含 在 答 
人 数据 中 的 信息 由 于 压缩 的 结果 丢失 本-。 数据 压缩 植 根 于 Shannon 信息 论 的 一 个 分 码 ， 称 为 
率 拓 真 (ate distortion) 理 论 ( Cover and Thomas,1991)。 为 了 目前 处 理 的 分 岩 庙 显 基 化 的 睛 的 ， 
以 陈述 下 面 率 失 真理 论 的 基本 结果 作为 开始 是 很 适合 的 (Gray,1984》: 

通过 获得 向 量 编码 而 不 是 标量 编码 ， 总 是 能 够 取得 好 的 数据 压缩 性 能 ， 即 使 数据 源 是 无 
记忆 的 (例如 ， 它 提供 一 系列 独立 随机 变量 ) ， 或 者 数据 压缩 系统 有 记忆 的 { 即 编码 器 的 动作 
依赖 于 编码 器 以 前 的 输入 或 输出 ) - 

这 个 基本 结果 构成 对 向 量 量 化 作出 贡献 的 广泛 研究 工作 的 基础 (Cersho and Gray,1992)。 








然而 ， 传 统 的 向 景 量化 算法 要 求 大 量 的 计算 ， 这 妨碍 了 它们 的 实际 使 用 。 向 脐 量 化 最 费 
时 的 部 分 是 编 友 操 作 。 为 了 编码 过 程 ， 输 和 向量 必须 与 每 一 个 在 码 书 中 的 码 字 向 量 作 比较 ， 
以 便 决 定 哪 一 个 特别 的 码 字 产 生 最 小 失真 度 。 例 如 对 于 码 书包 含 N 个 码 向 量 ， 编 玛 所 花 的 
时 间 依赖 于 8 的 阶 ， 这 样 对 大 的 交 值 所 花 时 间 就 多 。 在 Luatell(1989s) 描 述 一 个 多 阶段 分 层 
《multistage hierarchical) 向 量 量 化 器 ， 它 用 编码 速度 换取 精度 。 这 个 模式 不 是 标准 的 码 书 的 树 
搜寻 ; 它 是 真正 新 的 。 多 阶段 分 层 向 量 量化 器 试图 将 所 有 的 向 量 量化 过 程 分 解 成 许多 子 操 
作 ， 每 个 子 操作 仅 要 求 少量 的 计算 。 理 想 的 分 解 对 每 个 子 操作 简化 为 简单 的 查 开 。 通 过 巧妙 
地 使 用 SOM 算法 来 训练 量化 器 的 每 一 阶段 ， 准 确 性 的 丢失 可 能 很 少 ( 低 到 几 分 之 一 分 贝 
《decibel)) ， 同 时 计算 速度 的 增益 可 能 很 大 。 

考虑 晒 个 向 量 量化 器 VQ 和 VQ:, ， 其 中 VQ, 将 它 的 输出 送 到 VQ, 作为 其 输入 。VQ, 的 输 
出 是 应 用 于 VQ, 的 原 输入 信号 的 最 终 编码 形式 。 在 运行 它 的 量化 过 程 中 ，VQ: 不 可 避免 地 扼 
弃 一 些 信 息 。 就 YQ, 而 言 ，VQ, 仅 有 的 作用 是 扭曲 VQ, 输出 的 信息 。 这 样 很 明显 对 VQ, 的 
正确 的 训练 方法 是 SOM 算法 ， 它 说 明 VQ: 诱导 的 信号 失真 (Luttrel,1989a)。 为 了 使 用 广义 
Loydq 算 法 来 训练 VYQ ， 我 们 仅 需 要 假定 VQ, 的 输出 在 重建 之 前 没有 被 损坏 。 从 而 我 们 无 需 
引 和 人 史 声 模型 (在 VQ, 的 输出 ) 及 相应 的 有 限 宽度 邻 域 函 数 。 
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我 们 可 以 推广 这 个 启发 式 的 结论 到 多 阶段 量化 器 。 必 须 设计 每 一 阶段 使 之 考虑 所 有 的 后 
面 阶段 导致 的 失真 并 且 为 它 建立 噪声 模型 。 输出 
为 这 样 做 ， 使 用 SOM 算法 训练 量化 器 的 所 


有 阶段 ， 除 了 最 后 一 个 阶段 适宜 用 广义 的 

分 层 向 量 量化 过 程 是 多 阶段 向 量 芭 化 输出 
的 特例 (Luttrell, 1989a)。 作 为 种 例证 ， 考 | 
虑 4x1 的 输入 向 量 x= [zxzayzsyrs]7 的 
量化 。 在 图 9- 15a 我 们 给 出 用 于 的 单 阶段 [2 两 个 输入 的 
向 量 量化 器 。 另 外 ,我们 可 以 使 用 如 风 关 化 器 内 旺 归 化 
9-15b 所 描绘 的 两 阶段 分 层 量化 器 。 这 遇 个 | | | | | | | ] 
模式 的 重要 区 划 是 在 图 9- 15a 的 量化 器 输入 





两 个 输入 的 
向 量 量化 回 























纵 数 为 4 而 在 网 少 13 中 它 是 2。 因此 , 图 
9-15b 的 量化 器 要 求 小 规模 的 查 用 袁 ， 因 此 
比 图 9- 15a 的 量化 器 实现 简单 。 这 是 分 层 量 用 2 
风 二 具有 四 个 输入 的 单价 自身 量 量 化 器 
化 器 比 传统 量化 器 优越 之 处 。 全 有 机 个 条 人 的 两 了 到 分 呈 内 和 必 化 
Luttreli( 1989a) 展示 多 阶段 分 层 向 量 量 (入 自 S.P. Lattel(1989a] 。British Cmwn 版 权 ) 





化 器 应 用 到 不 同 的 随机 时 间 序列 的 性 能 ， 
编码 准确 度 丢 失 很 少 。 在 图 9-16 重新 产生 了 Lutteell 的 结果 ， 它 是 利用 一 阶 自 回归 (firsHorder 
atoregressjvye, AR) 模 型 : 

2 二) = pz) TCD) 《9.32) 
产生 的 ， 具 有 高 斯 噪声 过 程 ， 其 中 p 为 AR 系数 ，v(m) 为 独立 同 分 布 (idd) 的 高 斯 随机 变量 ， 
具有 零 均 值 和 单位 方差 。 因 此 我 们 可 以 证 明 *(z) 的 特征 如 下 : 











下 [xz(n)] = 0 (9.33) 
ee = 站 (9.34) 
吾 [x( 于 + 1) 和 (有 ) -6 (9.35) 


Ex2(D)] 

因此 p 也 可 看 成 时 间 序 列 Lz(n)i 的 相关 系数 。 为 了 按照 式 (9.32) 初 始 化 时 间 序列 的 生成 ， 对 
所 0) 使 用 均值 为 零 和 方差 为 (1 -他 ) 的 高 斯 随机 变量 ， 并 且 相 关系 数 使 用 p= 0.85。 

对 于 向 量 量化 使 用 类 似 于 图 少 15b 中 的 二 分 树 一 样 具 有 四 维 输入 空间 的 分 层 编码 器 。 对 
于 AR 时 间 序 列 1x(n)} ， 平 移 对 称 意味 着 仅 需 两 个 不 同 的 查 用 表 (look-up table)。 每 张 表 的 大 
小 按 指数 依 顿 于 输 和 人 比特 数 ， 而 线性 依 下 于 输出 比特 数 。 在 训练 过 程 中 ， 需 要 大 量 比特 数 表 
示 式 (9.24) 描 述 的 更 新 的 正确 计算 的 数 ; 这 样 在 训练 期 间 不 使 用 查 用 表 。 但 是 一 旦 训练 完 
成 ， 比 特 数 可 降低 至 它们 的 正常 水 平 ， 并 且 按 要 求 填充 表 项 。 对 于 如 图 9-1Sb 显示 的 编码 
器 ， 每 个 输入 样本 用 4 比特 近似 。 对 解码 器 的 各 个 阶段 ， 使 用 W( = 17) 个 码 字 向 量 ， 这 样 从 
每 个 查 用 表 的 输出 比特 数 也 近 亿 为 4。 因 此 第 一 阶段 和 第 二 阶段 的 查 用 表 的 地 址 空间 的 大 小 
为 256( = 关 ”“)， 这 意味 着 术 用 表 的 表示 所 需 存储 要 求 是 适中 的 。 
图 少 16 显示 用 x*(n) 作 为 输入 得 到 的 编码 - 解码 结果 。 图 9-16a 的 下 半 部 分 显示 两 阶段 
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中 每 个 阶段 的 码 字 向 量 为 一 条 同和 人 二 维 输 人 空间 的 曲线 ;图 9 16a 的 上 半 部 分 表示 相应 的 用 
16x 16 比特 的 共生 (ce-oceurence) 第 阵 的 估计 。 图 9-16b 表示 如 下 时 间 序 列 片 癸 : 








由 第 一 个 编码 阶段 计算 的 友 字 向 量 : 


* 保持 其 他 变量 加 定 ， 由 第 二 阶段 最 小 化 均值 平方 失真 计算 出 的 重 构 向 量 。 


图 916c 








显示 512 个 样本 ， 包 括 原始 时间 序列 (项 部 曲线 ;和 从 最 后 一 个 编码 器 阶段 的 输出 得 














到 的 它 的 重 悔 ( 底 部 曲线 )， 图 9-16e 的 水 平方 向 的 刻度 是 图 9-16h 的 一 半 。 最 后 ， 图 9-16b 表 
示 从 一 对 样本 原始 时 间 序 列 样 本 和 它 的 相应 重 构 ) 产 生 的 共生 敌阵 。 图 9-16d 中 的 带宽 指示 


由 分 层 向 量 量化 产 牛 的 失真 程度 。 
































检查 图 9-16e 的 波形 ， 看 出 重 构 对 原始 时 间 序 列 是 好 的 表示 ,除了 一 些 正 和 负 的 峰值 被 
剪除 。 根 据 Luttell(1989a) 归 整 化 后 的 均值 平方 失真 经 计算 为 0.15， 它 同 每 个 样本 用 一 比特 
的 单 阶段 4 -样本 块 编码 器 所 获得 的 8.8 分 员 几 乎 一 样 好 (0.5 分 贝 的 损失 )(Jayant and Noll， 


1984)。 
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9.10 
自 纤 


口 9) 


图 8.16 用 士 相关 高 斯 嗓 声 输入 的 防 阶 段 编码 /解码 结果 
相关 系数 p= 0.85( 摘 自 $.P.Luthell( 1989a) ，British Crmown 版 权 ) 


上 下 文 映射 
织 特征 映射 有 丙种 明显 不 同 的 可 视 化 方法 。 在 一 种 可 视 化 方法 中 ， 特 征 映 射 被 祝 为 


有 弹性 的 网 络 ， 此 时 向 量 权 值 被 视 为 对 应 神经 元 的 指针 ， 指 向 输入 空间 。 这 种 可 视 化 方法 特 


唱 适 用 了 


显示 SOM 算法 的 拓扑 排序 属性 ， 如 9.6 节 给 出 的 计算 机 仿真 实验 结果 所 说 明 。 





在 第 二 种 可 视 化 方法 中 ， 对 两 维 网 格 (表示 网 络 的 输出 层 ) 的 神经 元 赋予 类 别 标号 ， 它 取 
决 于 每 个 测试 模式 (以 前 未 见 过 ) 怎样 激活 自 组 织 网 络 中 的 特定 神经 元 。 作 为 仿真 第 二 阶段 的 
结果 ， 两 维 网 格 中 的 神经 元 被 前 分 成 许多 相 寺 区域 (coherent region)， 相 干 的 含义 是 神经 元 每 
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个 分 组 表示 邻接 符 苇 或 杯 切 的 一 个 独特 的 集合 (Riter and Kohonen, 1989)。 这 里 假定 第 一 步 产 
生 良 序 的 特征 映射 的 正确 条 件 成 立 - 

例如 ， 考 虑 表 9-3 中 给 出 的 数据 集合 ， 它 们 是 关于 许多 不 同 动物 的 。 表 的 每 一 列 是 对 动 
物 的 泵 意 性 描述 ， 它 古 根 据 左 边 13 个 不 同 的 属性 的 出 现 ( = 1) 或 不 出 现 ( = 0)。 一 些 属性 例 
如 " 玖 毛 " 利 "两 条 妥 " 是 相关 的 ， 而 其 他 许多 属性 是 不 相关 的 。 对 去 头 给 出 的 每 个 动物 ， 它 的 
属性 代码 x, 由 13 个 属性 构成 。 动 物 本 身 由 符号 代码 x 指定 ， 符 号 代码 的 组 成 必须 不 表 
达 动 物 的 低 何 信息 或 它们 之 间 已 知 揭 相似 点 。 例 如 当前 的 例子 ，x, 是 由 “个 列 向 量 构成 ， 
它 的 第 大 个 元 素 ， 表 朱 动 物 下 = 1,2,…,16 ， 赋 也 一 个 国定 值 <， 剩 下 的 元 素 者 时 成 0。 参数 
“与 属性 代码 比较 而 言 决定 符号 代码 之 问 的 相关 影响 。 为 了 确定 属性 代码 是 重要 的 一 个 ，a 
选择 为 0.2。 每 个 动物 的 输入 向 量 x 是 一 个 29 个 元 素 的 向 量 ， 到 示 属 人 性 代码 x 和 符号 代码 


x 的 联合 ， 表 未 为 
昌国 


最 后 ， 每 个 数据 向 量 都 被 归 一 化 为 单元 长 度 。 这 样 产 生 的 数据 集 的 模式 被 呈现 给 0 x 10 的 
两 维 神 经 元 网 格 ， 神 经 元 的 权 值 按照 9.4 节 中 阐述 的 SOM 算法 调整 。 训 练 连续 进行 2000 次 
选 代 ， 此 时 特征 映射 应 该 达到 一 个 稳定 状态 。 接 着 ， 由 一 个 动物 包含 的 符 导 代码 x= [x, . 
0 ”定义 的 测试 模式 呈现 给 特 组 织 网 络 ， 并 且 确 定 具 有 最 强 响应 的 神经 元 。 对 所 有 的 16 种 
动物 都 重复 这 样 做 。 





表 93 动物 的 名 称 和 它们 的 属性 














动物 名 母 鸡 轴 扑 猫 头 应 和 华 庚 狐 赣 狗 狼 犹 虎 狮 马 珊 妃 母 牛 
小 型 1 1 1 1 1 0 用 0 芋 和 0 0 是 0 
| 中 型 0 0 0 9 人 0 0 1 1 工 上 站 虽 0 自 0 0 
大 型 0 0 0 50 0 0 0 0 0 0 0 1 1 上 1 1 
2 条 腿 1 1 1 1 1 1 1 0 90 0 0 0 0 0 0 
4 条 腿 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 上 
有 五 发 0 0 0 0 0 0 0 1 11 1 1 1 1 上 
路 0 0 0 0 0 1 0 0 人 0 0 0 0 工 1 1 
蚂 0 0 0 9 0 0 0 0 0 1 0 0 1 上 1 0 
羽毛 1 1 1 1 1 1 1 0 0 00 00 0 0 
猎 食 0 0 0 0 1 1 1 1 9 1 1 上 1 0 0 0 
普 长 大 中 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 0 
飞翔 1 0 0 1 1 于 0 D 0 0 0 日 0 0 
游 流 0 0 1 1 0 0 日 0 @ 了 了 0 0 0 0 嫉 





按 刚 才 陈 述 的 方法 处 理 ， 我 们 得 到 略 9-17 所 示 的 映射 ， 其 中 标定 各 称 的 神经 元 代表 它 
们 对 各 自 的 调试 模式 有 最 强 的 响应 ， 点 代表 有 先 弱 的 响应 的 神经 元 。 

图 9-18 对 相同 的 自 组 织 网 络 显示 “模拟 电极 渗透 映射 "的 结果 。 但 是 ， 图 中 网 络 的 每 个 
神经 元 用 使 之 产生 最 好 响应 的 特定 动物 名 称 标记 。 图 9-18 清楚 地 表明 在 16 个 不 同 的 动物 中 
特征 映射 能 抓 住 “ 种 属 关 系 "。 这 里 有 三 个 不 同 的 聚 类 ， 一 个 表示 “ 鸟 类 ”， 第 二 个 表示 “平和 
的 种 属 ”, 第 三 个 表示 "猎手 "。 

图 9-18 表示 的 特征 映射 类 型 称 为 上 下 文 映 射 或 语义 映射 (Ritter and Kohonen, 1989; 
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图 》27 包含 对 它们 各 自 输 和 其 有 最 强 响应 的 标定 神经 元 的 特征 映射 
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图 9-18 利用 "模拟 电极 渗透 映射 "的 语义 瞻 射 ， 映 射 被 
分 成 三 个 不 同 区 域 ， 分 别 代表 鸟 类 、 平 和 种 属 及 "猎手 ” 


Kohonen,1997a)。 这 个 映射 与 大 脑 皮 质 的 映射 相似 ( 即 在 大 脑 皮质 里 形成 的 计算 映射 )， 这 在 
9.2 节 果 作 了 简要 讨论 。 作 为 利用 SOM 算法 产生 的 结果 ， 上 下 文 映射 在 众多 领域 找到 了 应 





用 ,诸如 文本 的 音素 类别 的 无 监督 分 类 ， 迁 感 (Kohonen, 1997a) ， 数 


《Kohonen,1997b)。 
9.11 小 结 和 讨论 


据 探 测 或 数据 挖掘 





由 Kohonen(1982) 提 出 的 自 组 织 贾 射 是 一 个 巧妙 的 神经 元 网 络 ， 它 建立 在 一 维 或 两 维 的 
神经 元 网 格 上 ， 用 于 补 获 包含 在 输入 (数据 ) 空 间 中 感 兴趣 的 特征 。 为 此 ， 它 利用 神经 元 权 值 


向量 作为 原型 提供 一 个 输入 数据 的 结构 表示 。SOM 算法 受到 神经 生物 学 








的 激发 ， 综 合 第 8 章 





中 讨论 的 所 有 自 组 织 的 基本 机 制 : 竞争 、 合 作 和 自 放 大 。 因 此 它 可 以 作为 虽 退 化 但 一 般 的 模 


型 ， 描 述 在 复杂 系统 中 从 完全 混乱 开始 最 终 出 现 整体 有 序 的 现象 。 





自 组 织 贞 射 也 可 以 被 看 作 向 量 量化 器 ， 从 而 提供 一 个 导出 调整 权 值 向 晤 的 更 新 规则 的 原 
理性 方法 (Lattel, 1989b)。 后 一 种 方法 明确 地 强调 邻 域 盘 数 作为 概率 密度 函数 的 作用 ， 

然而 应 该 指出 ， 基 于 使 用 在 式 (9,19) 中 的 平均 分 布 二 作为 极 小 化 代价 蝎 数 的 后 一 种 方 
落 ， 仅 当 特 征 映射 被 很 好 的 排序 后 才 是 合理 的 。 在 了 win et al,(1992b? 中 ， 证 明 在 自 适 记 过 
程 的 排序 阶段 ( 即 在 初始 是 高 度 混乱 的 特征 映射 的 拓扑 排序 期 间 ) 自 组 织 上 映射 的 学 习 动 态 系统 





不 能 用 一 个 代价 丽 数 的 随 忆 梯度 下 降 展 述 。 但 就 一 维 网 格 的 情况 来 说 ， 





它 可 以 用 一 组 代价 函 


数 描述 ， 对 于 网 络 中 每 个 神经 元 ， 一 个 对 应 的 代价 函数 随 随机 梯度 下 降 独 立地 被 最 小 化 。 
关于 Kohonen 的 SOM 算法 ， 令 人 惊奇 的 是 它 的 实现 如 此 简单 ， 但 在 一 般 设 置 下 分 析 它 的 
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性 质数 学 上 却 如 此 困难 。 虽 然 几 个 研究 者 使 用 相当 有 力 的 方法 来 分 析 它 ， 但 是 ， 他 们 仅 获 得 











有 限 的 应 用 性 结果 。 在 Cottrell el ]j.(1997) 中 给 出 关于 SOM 算法 理论 方面 的 结果 的 综述 。 尤 
其 最 近 由 Fore and Pages(1995,1997) 得 出 的 结果 引 人 和 人 注目 ， 结 果 表 明 就 一 维 网 格 情况 而 言 
可 产 格 证 明 : 在 据 组 织 阶 段 结 末 后 ，SOM 算法 “几乎 确定 " 收 令 到 一 个 惟一 状态 。 这 个 重要 


的 结 : 


站 发 现 自 组 织 特征 映射 可 以 解释 儿 猴 初级 视觉 皮质 中 计算 映射 的 形成 。 这 项 研究 的 输入 空间 
的 维 数 是 5 维 : 两 维 为 视觉 空间 搂 收 域 的 位 转 ， 剩 下 的 三 维 代表 方向 优先 、 方 位 选择 和 视觉 
优势 。 皮 质 表面 被 分 成 小 块 ， 每 块 被 视 为 两 维 网 格 的 计算 单元 ( 即 入 工 神经 元 )。 在 一 定 假设 


下 ， 


之 也 





四 


17] 





有 果 已 被 证 明 对 一 大 类 邻 域 本 数 成 立 。 然 而 ， 在 多 维 情况 下 尚未 得 到 同样 的 结论 。 
最 后 一 点 疑问 是 自然 的 。 胸 然 自 组 织 特征 映射 是 由 大 脑 皮 质 映 射 的 思想 所 激发 的 ， 很 自 
加 是 否 这 种 模型 可 以 实际 解释 皮质 映射 的 形成 。Erwin et 中.(1995) 进 行 了 这 项 研究 。 他 





表明 Hebb 学 习 导 丝 空 间 异 式 的 定位 和 视觉 优势 与 在 狂 钦 中 发 现 的 非常 相 伺 。 





注释 和 参考 文献 


图 9-! 的 两 个 特征 映射 模型 是 由 von der Malshurg(1973) 的 自 组 织 的 先驱 性 研究 所 激发 . 
Malsbug 注意 到 视觉 皮质 的 模型 不 能 整体 被 基因 预先 确定 ; 相反 涉及 突击 学 习 的 自 组 
织 过 程 可 能 导 丝 特征 敏感 的 皮质 细胞 的 局 部 排序 ， 但 是 在 yon der Maisburg 的 模型 中 不 
能 取得 全 局 拓扑 序 ， 朵 为 模型 使 用 固定 的 (很 小 的 ) 邻 域 ，von der Malsburg 的 计算 机 伪 
真 也 许 是 第 一 次 展示 自 组 织 。 
Amari(1980) 在 某 种 程度 上 放松 对 后 突 触 神经 元 的 突 触 权 值 的 限制 。Amar 给 出 的 数据 
分 析 阐 明 由 自 组 织 形 成 的 皮质 映射 的 动态 稳定 性 。 

Kohonen( 1993,1997a) 讨 论 自 组 织 映 射 的 神经 生物 学 的 可 行 性 。 

Ceossberg(1969h) 在 神经 网 络 文献 中 第 一 次 引入 式 (9,3) 描 述 的 竞争 学 习 规 则 。 

在 Kohonen(1982) 导 出 的 SOM 算法 的 原始 形式 中 ， 拓 扑 邻 域 假定 为 有 固定 的 范围 。 令 
少 .表示 在 邻 域 函 瘦 内 获胜 神经 元 ; 和 兴奋 神经 元 j 的 合 向 踊 离 ， 一 维 网 格 情形 的 折 扑 
邻 域 定义 为 











1， 一 下 过 荔 : 所 天 
所 -人 其 他 (UD 
其 中 2K 为 兴奋 神经 元 一 维 邻 域 的 总 长 度 。 与 神经 生物 学 考虑 相反 ， 式 (1) 描 述 的 模型 
意味 着 在 拓扑 邻 域 内 所 有 神经 元 以 相同 的 速度 点 火 ， 且 这 些 神经 元 内 部 的 相互 作用 与 
它们 到 获胜 神经 元 的 侧 向 距离 无 关 。 
Erwin et al,(1992b) 表 明 当 SOM 算法 利用 非 凸 的 邻 域 函 数 时 会 出 现 亚 稳定 状态 ， 它 表示 
在 特征 映射 设置 中 的 拓扑 缺陷 。Gauss 函数 是 凸 的 而 和 矩形 函数 不 是 凸 函数 。 一 个 宽 的 邻 
域 函数 ， 如 宽 Gauss 函数 ， 形 成 拓扑 排序 的 时 间 比 非 凸 邻 域 函 数 (如 迭 形 函数 ) 所 花 的 
时 间 短 ， 这 是 因为 没有 亚 稳 定 状态 。 
在 通信 和 信息 论 的 文献 中 ， 提 出 了 著名 的 标量 量化 的 早期 方法 ， 即 Lloyd 和 舞 法 。 这 个 算 
法 首先 由 Lloyd 在 Bell 实验 室 1957 年 未 发 表 的 报告 中 描述 (Lloyd,1957)， 很 久 以 后 才 发 
表 (LUoyd, 1982)。Lioyd 算法 有 时 也 称 为 "最 大 量化 器 "。 用 于 向 量 量化 的 广义 Hoyd 算法 
(generalized Lloyd algorithm, GLA) 基 Lloyd 算法 的 直接 锥 广 。 广 义 Dord 算法 在 MeQueen 
《1967) 将 其 作为 统计 到 类 的 工具 之 后 有 时 称 为 上 - 均值 算法 。 在 Linde el al,(1980) 之 后 
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的 数据 压缩 文献 中 它 有 时 也 称 为 LBG 算法 ,，Lloyd 算法 及 广义 Lioyd 算法 的 历史 评述 可 

参看 Cetsho and Gray(1992)。 

Kohonen(1993) 给 出 的 实验 结果 表明 ，SOM 算法 的 集中 方式 比 它 的 在 线 方式 快 。 但 是 使 

用 集中 方式 时 SOM 算法 失去 自 适应 能 力 ， 

白 纸 织 肌 射 的 折 扑 性 质 可 由 不 同方 法 定量 评价 。 -- 种 这 样 的 定量 度量 称 为 地 形 图 产品 

(topographic product)， 它 在 Bauer and Pawetzik(1992) 中 描述 ， 它 可 用 于 比较 属于 不 同 维 

数 的 不 同 特 征 映 射 的 真实 行为 ， 但 是 只 有 当 网 格 维 数 和 输入 空间 维 数 匹 配 这 种 度量 才 

是 量化 的 。 

SOM 算法 励 能 力 提供 输入 数据 的 国有 分 布 的 可 信 表 示 ， 这 一 点 促使 对 算法 的 修正 利 真 

实 表 示 输 入 的 新 自 组 织 算法 的 发 展 。 

在 文献 中 有 两 类 SOM 算法 修正 的 报导 、 

(修改 竞争 过 程 。DeSiene(1988) 在 网 格 中 用 记忆 形式 跟踪 单个 神经 元 累计 激活 量 。 基 
体 地 ， 添 加 "良心 ”机制 影 响 SOM 算法 的 竞争 过 程 。 这 样 做 使 得 每 个 神经 元 不 管 它 在 
网 格 中 的 位 轩 如 何 都 有 机 会 以 按 近 于 理想 值 ti 刀 的 概率 获胜 ， 其 中 ;为 总 的 神经 元 
数 。 习 题 9.8 给 出 具有 良心 机 制 的 SOM 算法 描述 。 

《这 修改 自 运 应 过 程 。 在 这 第 二 种 方法 中 ， 对 用 于 调整 邻 域 数 内 钴 个 神经 元 权 值 向 量 

的 更 新 规则 进行 覆 改 ， 控 制 特 征 映 射 的 放大 性 质 。 在 Bauer et al，(1996) 中 ， 表 明 通 

过 对 更 新 规则 添加 可 调 步 长 参数 ， 可 以 为 特征 映射 提供 输入 数据 的 可 信 表 示 。Iin 

et 引 .(1997) 遵 循 相似 的 途径 引入 SOM 算法 的 两 种 修改 : 

修改 喝 新 规则 ， 抽 取 输入 向 量 x 和 问题 中 神经 元 ; 的 权 值 向 量 wi 的 直接 依赖 性 。 

利用 为 可 分 输入 分 布 特别 设计 的 等 变化 (equivariant) 齐 分 替代 Voronoi 前 分 。 

这 第 二 种 修改 使 得 SOM 算法 能 进行 官 源 分 该 。( 言 源 分 离 在 第 1 章 丰 简单 讨论 ， 在 

第 10 章 作 详细 讨论 。) 

所 提 到 的 修改 建立 在 标准 SOM 算法 的 这 种 或 那 种 形式 上 。Linsker(1989b) 采 用 一 种 完全 

不 同方 法 。 有 具体 了 地， 利用 最 大 化 输出 信号 和 带 加 性 噪声 的 输入 信号 之 间 的 五 信息 的 方 

法 ,导出 用 于 地 形 图 映射 形成 的 全 局 学 习 规则 -〈 植 根 于 Shannon 信息 论 的 互信 息 的 定 

义 在 第 10 章 讨论 。)Tinsker 的 异型 产生 与 输入 分 布 精确 匹配 的 神经 元 分 布 。 利 用 信息 论 

的 方法 以 自 组 织 方式 处 理 地 形 图 映射 形成 也 在 Van Hulle( 1996,1997) 中 讨论 。 
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[11] SOM 算法 和 主 曲线 之 间 的 关系 在 Bitter(1992) 以 及 Cherkassky and Mulier(1995) 讨 论 。 寻 


[121 














找 主 曲线 的 算法 分 为 两 步 C(Hastie and Suuetl,1989) ; 

上 投影 。 对 每 个 数据 点 寻找 在 曲线 上 的 最 近 投影 或 最 接近 点 。 

2. 条 件 期 望 。 应 用 散 列 图 沿 曲线 长 庶 平 滑 投影 值 。 推 荐 的 程序 是 从 大 范围 开始 平滑 然 
后 逐渐 减少 。 

这 两 步 和 向 量 量化 及 SOM 算法 所 进行 的 邻 域 退火 相似 。 

1986 年 Kohonen 提出 了 学 习 疝 量 量化 的 思想 ，Kohonen(1990b, 1997a) 描 述 这 个 算法 的 3 

种 形式 。 在 9.7 节 讨 论 的 算法 形式 是 学 习 向 量 量 化 的 第 一 种 ，Kohonen 称 之 为 LVQ1。 

学 导向 量 量化 算法 是 随机 通 近 算法 。Baras and La Vigna(1990) 用 第 8 章 叙述 的 常 微分 方 

程 (ODE) 方 法 讨论 这 个 算法 的 收敛 性 质 。 
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习题 
SOM 算法 


9.1 虎 数 g( 六 ) 表 示 响 应 六 的 非 线 忻 函数 ， 它 如 同 在 (9.9) 中 那样 用 于 SOM 算法 。 如 
果 &( 六 ) 的 Taylor 展示 的 常数 项 不 为 寺 ， 讨 论 这 会 产生 什么 结果 ? 
9.2 假设 r(y) 为 图 9-6 模型 的 噪声 "的 光滑 晒 数 ， 利 用 式 (9.9 ) 的 失真 度量 的 Taylor 
展开 ， 确 定 噪声 模型 x( ) 导 致 的 曲率 项 、 
9.3 有 时 说 SOM 算法 保持 输入 空间 中 存在 的 拓扑 关系 。 严 格 地 说 ， 这 种 性 质 只 有 输 人 
空间 的 维 数 与 神经 元 网 格 的 维 数 相等 或 再 低 时 才能 保证 。 讨 论 这 个 陈述 的 正确 性 。 
9.4 一 般 说 基于 竞争 学 习 的 SOM 算法 对 硬件 故障 不 具有 容错 性， 但 是 算法 对 和 输 和 的 小 
的 扰动 引起 输出 从 获胜 神经 元 跳 到 相 邻 的 神经 苑 具有 容错 人 性。 讨论 这 两 个 陈述 的 含义 。 
9.5 考虑 由 (9.23) 表 示 的 SOM 算法 的 离散 形式 获得 的 集中 方式 ， 表 示 为 
3 
殖 ) 二 豆 关 ， 
证 明 SOM 算法 的 这 种 形式 可 以 表示 成 和 Nadaraya-Watson 同 归 估 计 器 相似 的 形式 (Cherkassky 
and Mulier,1995); 这 个 估计 器 在 第 5 章 装 论 。 
学 避 向 量 量化 
9.6 在 本 题 中 考虑 9.7 节 的 学 习 向 量 量化 算法 的 优化 丧 式 (Kohonen, 1997a)。 我 们 希望 
调整 在 不 同时 间 对 Voronoi 向 量 所 做 的 修正 效果 使 得 参照 学 习 周期 结束 时 有 相同 影响 。 
《a} 首 先 ， 证 明 式 (9.30) 和 (9.31) 可 集成 为 -~ 个 等 式 


WE = (1-snan)wW (nm) TSnanxt) 











2 





其 中 
，- 全 若 分 类 正确 
” -1 苦 分 类 错误 
(b) 因 此 ， 若 o = (1- san)as- 成立， 证 助 习 题 开 始 描述 的 最 优 准 则 满足 ! 这 样 学 习 常 
数 o 的 最 优 值 为 
四 2 
1 


9.7 第 8 章 讨论 的 最 大 特征 滤波 器 和 自给 织 特征 贞 射 的 更 新 规则 者 利用 Hebb 学 习 假 设 
的 修正 。 比 较 这 卫 个 修正 ， 说 明 它 们 的 不 同和 相似 点 。 

9.8 良心 算法 是 SOM 算法 的 修 于， 它 迫 使 害 度 匹配 是 精确 的 匹配 (Desieno, 1988 )。 在 
表 9-4 小 结 的 良心 算法 中 ， 每 个 神经 元 保存 它 竞 争 获 胜 的 次 数 ( 即 它 的 突 触 权 值 向 量 在 
Faclid 距 离 下 成 为 距离 输 和 人 向 晤 最 近 的 神经 元 的 次 数 )。 这 里 使 用 的 概念 ， 就 是 如 果 一 个 神 
经 元 获胜 太 频繁 ， 它 “感到 有 浊 " 从 而 退出 竞争 。 

为 了 研究 利用 良心 算法 在 密度 匹配 上 产生 的 改善 ， 考 虑 由 20 个 神经 元 组 成 的 一 维 网 格 
《 即 线性 陈列 ) 利 用 图 9- 19 画 出 的 线性 输入 密度 训练 它 。 

(a) 利 用 计算 机 仿真 比较 由 良心 算法 和 SOM 算法 产生 的 密度 匹配 ， 对 SOM 算法 使 用 
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1= 0.005 而 良心 算法 使 用 下 =0.0001，C =1.0 和 ?=0.05。 
《b) 作 为 这 个 比较 的 参考 框架 ， 包 括 输入 密度 的 “精确 "匹配 。 
讨论 你 的 计算 机 仿真 结果 . 





表 94 良心 算法 小 结 





1 寻找 和 输 人 向 显 x 最 近 的 突 触 疝 最 mwi: 
1x-w, | = min1 天 
2. 保持 - 轮 神 经 皂 竟 锌 获胜 的 总 时 间 部 分 忆 ; 
Pr 
其 中 0<B< <1 上 于 
1 。 若 神 经 元 /为 获 肢 坟 经 元 
- 盖 也 其 他 
在 算法 开始 时 ， 户 切 娩 化 为 堆 


3., 利用 良心 机 制 
mw = mtly- 呈 1- 负 
寻找 新 的 获胜 神 络 万， 其 中 活 是 为 了 修改 竞争 而 引 人 的 偏 蛋 项， 它 定义 为 
-ec( 寺 - 同 


其 中 C 为 偏 秆 因子 而 四 为 网 络 中 神经 元 的 总 数 。 
4. 更 新 获胜 悼 经 元 的 突 触 权 信 向 展 ; 
= 


其 中 了 为 通常 在 SOM 算法 中 使 用 的 学 习 率 参 烙 、 


计算 机 实验 
9.9 在 这 个 试验 中 我 们 用 计算 机 仿真 研究 SOM 算法 应 用 于 具有 二 维 输入 的 一 维 网 格 。 


网 格 由 65 个 神经 元 组 成 ， 输 人 由 图 9- 20 所 示 的 二 角形 内 均匀 分 布 的 随机 点 构成 。 计 算 由 








SOM 算 法 在 0，20，100，1000，10 000 利 25 000 次 迭代 后 产生 的 映射 。 
20 
0 大 | 
-10 交 10 0 
图 9-19 图 9-20 


9.10 考虑 一 个 用 三 维 输入 分 布 训练 的 二 维 神经 元 网 格 。 网 格 由 10 x 10 神经 元 构成 。 
(在 小 区 域 





1(0<xz<l),(0O<x<1),(0< xx < 02) 
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四 


和 


了 
补 


程 的 失败 。 


输 和 人 是 一 致 分 布 的 。 利 用 SOM 算 法 计算 输入 宣 间 在 和，1 000 和 10 000 次 算法 选 
代 后 的 一 维 投影 。 
《b) 当 输入 在 一 个 更 大 的 区 域 

IO<2<l0<i< ,CO< 5 <0.4) 
均匀 分 布 时 重复 你 的 计算 。 
(o) 当 输入 在 立方 体 

IO<x<lDO<s<t,(O<x < 1 
内 均匀 分 布 时 再 一 次 重复 你 的 计算 。 














寺 论 你 的 计算 机 仿真 结果 的 含义 。 、 


9.11 在 SOM 算法 应 用 中 经 常 出 现 的 问题 足 不 能 形成 拓扑 排序 而 产生 * 折 登 " 映 射 。 当 





允许 邻 域 体积 衰减 太 快 时 就 会 发 生 这 个 问题 。 折 秋 映 射 的 产生 可 以 看 作 拓 扑 排序 过 程 形成 某 








形式 的 “局 部 最 小 "。 

为 了 研究 这 个 现 象 ， 考 虑 一 个 10 x 20 神经 元 的 二 维 网 格 ， 用 在 正方 形 |1(- 1<xi< + 
，(-1<i<+1)} 内 均匀 分 布 的 一 维 输 和 人 训练。 计算 由 SOM 算法 产生 的 映射 ， 允 许 获胜 
经 元 周围 的 邻 域 函数 比 正常 使 用 的 衰减 快 得 多 。 你 可 能 需要 重复 几 次 试验 才能 看 到 排序 过 





9.12 SOM 算法 的 拓扑 排序 性 质 可 以 用 于 形成 高 维 输入 空间 的 一 种 抽象 的 二 维 表示 形 





式 。 为 了 研究 这 种 表示 形式 ， 考 虑 由 10 x 10 神经 元 组 成 的 二 维 网 格 ， 它 的 训练 输入 空间 由 8 





D， 





维 空间 的 4 个 Causs 云 % ，%: ，%; 和 @, 构成 ， 它 们 的 中 心 位 置 分 别 为 (0,0,0,…,0)，(4,0， 


10，(44, 0 50) 和 (0,4,0,…,0)。 计 算 由 SOM 算法 产生 的 映射 ， 在 映射 中 每 个 神经 














元 的 类 别 和 在 该 神经 元 周围 输入 点 中 具有 最 多 输入 点 的 类 别 相 同 。 





9.13 表 9-3 给 出 重 正规 化 SOM 算法 小 结 ; 9.3 节 给 出 算法 的 简要 描述 。 比 较 常规 的 和 


重 正规 化 的 SOM 算法 ， 注 意 以 下 两 个 问题 ; 





1. 算法 实现 所 涉及 的 编码 复杂 性 。 
2. 训练 花费 的 计算 机 时 间 。 


表 95 重 正规 化 训练 算法 小 结 { 一 维 的 形式 ) 








. 初始 化 ， 置 码 字 僻 晶 的 数 肯 为 一 小 整数 (例如 ， 为 简单 起 匈 使 用 ?或 对 所 求 问题 更 具 代表 性 的 其 他 数 月 )。 从 训练 
集中 随机 选择 相应 数目 的 训练 向 量 初始 化 它们 的 位 置 。 


2. 寺 择 一 个 输入 向 重 ， 从 训练 集中 随机 选择 一 个 输 和 向量。 
3. 输入 向 量 编码 ， 确 定 获 用 码 字 向 量 ( 即 获 胜 神经 邢 的 突 触 权 值 向 量 )。 为 了 做 到 这 一 点 ， 在 需要 时 使 用 "最 近邻 "或 


“最 小 失真 "编码 规定 : 


4. 码 书 更 新 ， 执 行 通常 的 "获胜 者 和 它 的 拓扑 邻 域 "更 新 、 你 会 发 现 保持 学 习 率 参数 1 固定 (如 0.125) 就 足够 了 。 例 如 


避 


更 新 获胜 神经 元 使 用 1 而 它 的 最 近邻 使 用 人 2 
、 码 书 分 乳 卫 ， 继 续 公 书 更 新 (第 4 步 )， 每 次 使 用 随机 训练 集中 挑选 的 新 输 和 人 向量 直到 码 书 更 新 的 次 数 是 码 字 向 量 
数目 的 10 - 如 悦 。 这 时 码 飞 大 概 已 经 稳定 .应 该 进行 码 书 分 烈 。 为 做 到 这 一 点 你 既 可 以 采用 和 你 所 有 的 码 字 向 量 的 
Peano 串 ， 且 对 亡 们 的 位 置 进行 插 信 以 产生 对 Peane 串 的 更 小 粒度 的 鳌 近 ; 也 可 以 简单 对 每 两 个 已 有 的 码 字 向量 连 
线 添 加 另外 码 字 向 旺 - 

训练 守成。 继续 进行 码 书 更 新 和 码 书 分 发 直到 码 字 向 最 总 数 达 到 其 一 预定 值 ( 如 100) ， 这 时 整个 训练 结束 。 





灾 ” 码 尿 分 裂 近似 在 每 一 回合 时 加 和 贡 码 字 向 量 的 数 情 ， 所 以 达到 任何 预定 的 码 字数 日 无 需 花 殴 许 多 的 回合 。 





之 9 于 _ 
说 明 这 两 种 算法 的 比较 ， 利 用 从 一 个 正方 形 内 的 均 久 分布 中 抽取 的 数据 ， 且 按照 下 列 两 
个 网 络 配置 : 
(a)257 个 神经 元 的 一 维 网 格 
《b)2094 个 昼 经 元 的 一 维 网 格 
在 这 两 种 情形 都 以 2 个 码 字 向 量 开始 。 
9.14 考虑 图 921 所 示 的 信号 空间 图 对 应 的 1 行 冲击 幅度 调制 ( 计 -ary pulse-amplitude 
Imodulation,PAM) ， 寻 =8.0。 信 号 点 对 应 于 Gray 编码 数据 块 。 每 个 信号 点 由 具有 合适 幅度 大 
小 的 矩形 羡 击 信号 表示 : 
PCD =+ 上 了 ,上 ,* 王 ,+* 于 ， 人 0 二 上 过 人 
其 中 了 为 信号 区间。 在 接收 器 输入 ， 对 具有 变化 信 噪 比 (signal-to-noise natio,SNR) 的 传输 信号 
添加 零 均 值 的 Causs 白 噪 声 。SNR 定义 为 传输 信号 能 量 平均 和 噪 声 能 量 平均 的 比值 。 
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玛 字 000 001 Qi1 人 有 10 110 111 101 100 
了 了 了 1 工 3 5S 了 
冲击 幅度 。“ 王 - 五 | 二 二 二 习 
< 。 e a。- a 
中 点 
图 9-21 


(a) 利 用 随机 二 值 序列 作为 发 送 器 输 和 人， 产生 表示 SNR = 10,20,30 分 贝 接收 信号 的 数据 。 
(b) 对 这 些 SNR， 建 立 自 组 织 特 征 映 射 。 你 可 使 用 的 典型 值 为 : 
，。 对 接受 信号 以 8 倍 信号 率 采 样 获得 的 8 个 元 素 构成 输入 向 量 ( 即 每 个 信号 区 间 8 
个 样本 )。 假 设 不 知道 时 间 信息 。 
” 既 个 神经 元 的 一 维 网 格 ( 即 输入 向 量 大 小 的 8 倍 )。 
(o) 对 三 个 SNR 显 水 特征 映射 ， 由 此 表示 SOM 算 甘 的 拓扑 排序 性 质 。 





























第 10 章 ”信息论 模型 


10.1 简介 


Claude Shannon 在 1948 年 发 表 的 经 典 论文 中 ， 为 信息 论 打 下 了 基础 。Shannon 在 信息 论 方 
面 的 开创 性 工作 5 和 其 他 的 研究 工作 者 对 它 的 补充 ， 是 对 电子 工程 师 设计 高 效 可 靠 通信 系统 
的 喜 求 的 直接 回 疡 。 无 论 它 的 实际 起 源 什 么 ， 如 我 们 今天 所 知道 的 信息 论 正 是 关于 通信 过 
程 本 质 的 深刻 数学 理论 。 这 个 理论 提供 一 个 对 根本 问题 研究 的 总 体 艳 架 ， 例 如 ， 信 息 表示 的 
效率 以 及 一 个 通信 信道 可 靠 信 息 传输 的 极限 问题 。 而 且 该 理论 包括 很 多 有 力 的 定理 用 以 计算 
最 佳 表示 和 信号 所 携带 信息 的 传输 的 理想 界限 。 这 些 界限 非常 重要 ， 因 为 它们 为 提高 信息 处 
理 系 统 的 设计 提供 了 标准 。 

这 一 章 我 们 的 主要 目的 是 讨论 以 一 种 原则 性 方式 导致 自 组 织 的 信息 论 模型 。 在 这 个 背 
景 下 ， 特 别 值得 注意 的 模型 是 由 Linsker 于 1988 年 提出 的 最 大 互信 息 原 则 ( maximum mutual 
information principle)2! 。 该 原则 表明 ， 多 层 神经 网 络 的 突 触 联结 以 这 样 一 种 方式 进行 : 在 
网 络 的 每 个 处 理 阶 段 ， 当 进行 信号 变 瓜 时， 为 保留 的 信息 量 达到 最 大 ， 要 遵从 一 定 的 约 
来 条 住 。 利 用 信息 论 来 解释 人 们 的 感知 过 程 并 不 是 什么 新 的 想法 Pi 。 例 如 ， 我 们 可 能 注意 
到 1954 年 Atmeave 写 的 一 篇 妾 期 论文 ， 其 中 提出 了 关于 感知 系统 的 下 面 信息 理论 性 作 
用 : 

感知 机 制 的 一 个 主要 功能 是 减少 刺激 的 宛 余 ， 以 一 种 比 它 冲 击 接受 器 的 形式 更 经 济 的 方 
式 对 信息 进行 揪 述 或 编码 。 

在 Atmeave 的 论文 背后 的 主要 思想 在 于 认识 到 为 减少 元 余 对 场景 数据 编码 和 确认 场景 中 
特定 特征 是 相关 的 。 这 种 重要 认识 和 在 Craik( 1943) 描 述 的 关于 人 脑 的 观点 相关 ， 在 该 论文 
中 构造 一 个 外 部 扯 界 的 模型 以 便 结 合 现实 的 规则 和 约束 。 


本 章 的 组 织 


本 章 主 体 组 织 成 两 部 分 。 第 一 部 分 由 10.2 节 至 10.5 节 组 成 ， 提 供 对 信息 论 基本 原理 的 
回顾 。 在 10.2 节 讨 论 作 为 信息 的 一 个 定量 度量 的 入 的 概念 ， 这 自然 导致 10.3 节 讨 论 的 最 大 
精 原则 。 其 次 ， 我 们 在 10.4 节 讨论 互信 息 的 概念 和 它 的 性 质 ， 随 后 在 10.5 节 讨 论 Kallback- 
Leihler 散 度 。 

本 章 第 二 部 分 由 10.6 节 至 10.14 节 组 成 ， 处 理 用 于 自 组 织 系统 的 信息 论 模 型 。10.6 节 
提出 把 互信 息 量 作为 一 个 最 优化 的 目标 丽 数 。 最 大 互信 息 原 则 在 10.7 节 介 绍 ， 随 后 讨论 该 
原则 与 10.8 节 中 的 宛 余 减 少 原则 之 间 的 关系 。10.9 节 与 10.10 节 中 处 理 最 大 互信 息 原则 适 
应 于 图 像 处 理 中 不 同 应 用 的 两 个 变 体 。10.11 节 到 10.14 节 提 出 三 种 不 同 的 方法 解决 目 源 分 
离 问题 。 

在 10.13 节 中 提出 一 些 最 后 的 评论 结束 本 章 。 
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10.2 彤 


遵循 概率 论 中 通常 使 用 的 术 诺 ， 我 们 以 大 写字 母 表 示 随 机 变量 ， 以 相应 的 小 写字 母 表示 
随机 变量 的 值 。 
对 于 一 个 随机 变量 于 ， 它 的 每 一 个 实现 (出 现 ) 可 看 作 一 个 消息 。 严 格 地 说 ， 如 果 随 机 变 
基于 的 幅度 值 是 连续 的 ， 则 它 带 有 无 穷 的 信息 。 众 必 ， 从 物理 和 生物 的 角度 来 看 ， 我 们 认 
识 到 讨论 具有 无 限 精度 的 幅度 度量 的 信息 是 没有 意义 的 ， 这 就 是 说 可 以 把 X 的 值 … 致 是 化 
到 有 限 的 离散 水 平 。 这 样 我 们 可 以 把 下 看 成 是 离 驹 的 随机 变量 ， 其 模型 为 
下 = js 1 下 = 0, 土 1 十 炎 | (10.1) 
中 拓 是 一 个 离散 的 数值 且 (2 天 + 1) 是 总 的 离散 水 平 。 离 散 水 平 之 间 的 间隔 8x 假设 非常 
小 ， 能 够 以 足够 的 精度 来 措 述 我 们 感 兴趣 的 变量 。 当 然 我 们 能 够 接近 连续 的 极限 ， 只 要 8x 
-0 旦 天 趋 于 无 穷 ， 在 这 种 情况 下 就 得 到 连续 变量 而 且 ( 在 本 节 后 面部 分 我 们 将 看 到 ) 求 和 变 
成 积分 。 
为 完善 模型 ， 让 事件 Y = xs 以 概率 
= PE = ) (10.2)》 


























发 生 ， 其 中 要 求 
人 
0 过 本 反 1 和 了 mx = 1 《10,3) 
假如 事件 X = x 发 生 的 概率 六 = 1， 因 此 要 求 对 所 有 i 夫 上 有 疡 = 0。 在 这 种 情况 下 ， 如 
果 事 件 了 = x 发 生 就 没有 什么 “惊奇 "的 了 ， 并 且 不 传达 任何 “信息 "， 因 为 我 们 知道 消息 必 
须 是 什么 。 在 另 一 种 情况 下 ， 如 果 各 种 岗 散 水 平 发 生 的 概 兴 不 同 ， 特 别 地 概率 户 只 小 , 那 
么 当 瑟 节 值 xx 而 不 是 具有 更 高 概率 疡 的 离散 水 平 (i 尖 上 时 ， 这 就 有 更 大 的 “惊奇 "和 有 
“信息 "了 。 因 此 词 “ 不 确定 "~、“ 惊 奇 " 和 "信息 "是 相关 的 。 在 开 = xx 发 生 之 前 ， 有 一 定 的 不 
确定 性 。 在 工 = u 发 生 之 后 ， 有 有 一定 惊 奇 。 在 蕊 = xx 发 生 之 后 ， 信 息 量 增加 了 。 这 里 的 一 
个 量 很 显然 是 一 样 的， 而 用 信息 量 与 事件 发 生 的 概率 成 反比 。 
我 们 定义 观察 到 具有 概率 pm 的 事件 壮 = xx 后 所 获得 的 信息 增益 量 为 对 数 男 数 
区 i) = be( 二) = - log 记 (10.4) 


中 对 数 函 数 的 底 是 任意 的 。 当 以 自然 对 数 为 底 时 ， 信 息 的 单位 是 奈 特 (nat)， 当 以 2 为 底 
时 ， 单 位 是 比特 (bit)。 在 任何 情况 下 以 式 (10.4) 定 义 的 信息 量 都 有 以 下 的 性 质 : 

































































1. 几 a) =0。 当 户 =1 (10.5) 

显然 ， 如 果 我 们 绝对 肯定 将 发 生 的 事件 ， 则 当 其 发 生 时 就 没有 获得 信息 。 

2. Ta ) 关 0， 当 0< 庆 <1 (10.6) 

也 就 是 说 。 当 事件 艺 = xs 发 生 时 ， 或 提供 一 些 信息 或 不 提供 信息 ， 但 不 会 导致 信息 损 
失 。 

3 ar) > 和)， 当 Pr< 挛 (10.7) 


也 就 是 说 ， 小 概率 事件 发 生 时 携带 的 信息 量 比 大 概率 事件 发 生 时 携带 的 信息 量 多 。 
信息 量 区 xx) 也 是 一 个 具有 概率 mx 的 离散 随机 变量 。X m) 在 全 部 2 天 + 1 个 离散 数值 上 
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的 平均 值 定 义 为 





形 (X) = 巨 L7(m)] = poleo = = - pen (10.8) 
量 所 2 叫做 一 个 可 取 有 有 限 亢 散 值 的 随机 变量 世 的 炳 ; 之 所 以 称 为 六 是 因为 i0.8) 给 出 的 定 
义 与 统计 热力 学 中 的 录 非 常 相 似 当 。 炳 旦 ( 四 疼 示 每 一 个 消息 所 携带 的 信息 的 平均 量 。 注 意 
在 器 () 中 王 不 是 下 并 的 变量 ， 而 是 一 个 随机 变量 的 标记 。 同 时 注意 到 在 式 (10.8) 中 我 们 
取 0iog0 为 0。 
炉 (也 ) 被 限定 如 下 : 
0 万 (X) 过 log(2 天 + 《10.9) 
其 中 (2K+ 1) 是 总 的 离散 水 平 的 数 日 。 进 一 步 ， 我 们 作 如 下 说 明 ， 
1 .五 (X) =0 当 且 仅 当 对 于 某 一 个 天 概率 六 = 1 时， 而 集合 中 其 他 的 概率 为 0; 的 这 个 
下 办 不 对 应 不 确定 性 。 
2. 厂 (X) = log(2 玉 + 1) 当 且 仅 当 对 所 有 的 上 ，m = 12K+1)( 即 所 有 的 离散 值 的 概率 相 
等 );， 这 个 上 界 对 应 最 大 不 确定 性 。 
第 二 性 质 的 证 明 要 用 到 下 面 的 引 理 (Cray,1990): 


对 离散 的 随机 变量 一 给 定 任意 两 个 分 布 | 术 1 和 jg ， 则 


oal2) 2> 0 (10.10) 
当 且 仅 当 对 所 有 的 天 ，r = @ 都 成 立时 ， 上 面 的 等 式 成 立 。 
这 个 引 理 所 用 的 量 是 如 此 的 重要 ， 以 致 我 们 停 下 来 以 适宜 在 随机 系统 的 研究 中 使 用 的 形 
式 描述 它 。 令 r(xz) 和 gx(z) 表 示 一 个 随机 变量 天 在 两 个 操作 条 件 下 处 于 状态 x 的 概率 。 两 
个 概率 质量 函数 pr(x) 和 gw (*) 的 相对 精 或 Kullhack-Leibler 散 度 (距离 ) 定 义 如 下 (Kullback 
1968 ,Cray, 1990; Cover and Thomas,1991) : 
Di = =- 及 woodl 划 加) (10.11) 
中 求 和 是 对 所 有 的 可 能 的 系统 状态 ( 即 离散 随机 变量 X 的 字母 表 % )。 概 率 质 量 函数 gr(z) 
起 着 参考 度量 的 作用 。 
连续 随机 变量 的 微分 冰 


信息 论 概念 的 讨论 现在 只 涉及 它们 的 幅度 离散 的 随机 变量 总 体 。 现 在 我 们 将 这 些 概念 中 
的 一 些 扩展 到 连续 随机 变量 。 

假设 连续 随机 变量 盛 的 概率 密度 函数 是 广 (*)， 与 离散 随机 变量 的 箭 的 定义 类 似 ， 我 们 
作 如 下 定义 ; 






























































h00 = -| _ACe)bahtaa =- ELlsh(a)] (0.12) 


我 们 将 由 和 ) 定 义 为 天 的 微分 精 (differential entopy)， 与 一 般 的 或 绝对 相 区 别 。 我 们 这 样 做 
认识 到 虽然 #( 节 是 一 个 有 用 的 数学 量 ,但 它 在 任何 意义 下 也 不 是 一 种 工 的 随机 性 度量 。 
我 们 对 使 用 (10.12) 的 合理 性 可 以 解释 如 下 。 开 始 将 连续 随机 变量 忒 看 成 离散 随机 变量 
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的 极限 形式 ， 设 x = 13z， 其 中 大 =0，+ 上 1，+ 上 2，…， 且 sx 趋 于 0。 由 定义 ， 连 续 随 机 变 
量 习 取 值 在 !m，x + Sx] 之 间 的 概率 为 户 (xr)8x。 所 以 ， 当 8$z 趋 于 0 时 连续 随机 变量 下 的 
普通 入 可 以 写成 区 下 极限 的 形式 ; 


丰 站 = 加 王 关 (ajaxlogGhCaan 


-= - 加 [也 A(a)0uhtn))ar + ssx 忆 (naz] oo 


=- 人 Hoiogpto)ar - mlogaz| FA(z)dr 

= CA) - Jimlog8z 
其 中 最 后 一 行 用 到 了 式 (10.12) 以 及 在 概率 密度 函数 下 方 的 总 面积 为 1 这 个 事实 。 当 8z 趋 于 
0 时 ，- log8x 趋 于 无 穷 大 。 这 意味 郑 连 续 随机 变量 的 闹 是 无 穷 大。 在 直觉 上 ， 我 们 也 期 望 
这 是 真 的 ， 因 为 随机 变量 林 以 在 ( - m ,xm ) 上 任意 取 值 ， 利 随机 变量 相关 联 的 不 确定 性 是 无 
穷 阶 的 。 为 了 避免 出 现 项 - log8x 所 带 来 的 问题 ， 我 们 采用 关 ( 子 ) 作 为 描述 随机 变量 轴 的 微 
分 精 ， 项 - log8x 作为 参考 。 而 且 , 由 于 作 为 一 个 随机 系统 处 理 的 信息 实体 ， 我 们 感 兴趣 
的 实际 上 是 具有 相同 参考 的 两 个 炳 项 的 差 ， 信 息 将 和 相应 微分 精 项 之 问 的 差 是 一 样 的 。 所 以 
我 们 完全 有 理由 采 用 在 (10.13) 所 定义 的 项 上 X) 作 为 连续 随机 变量 z 的 微分 闹 ， 

当 有 一 个 由 = 个 随机 变量 区 ， 妨 ，…， 达 组 成 的 随机 连续 向 量 和 时 ， 我 们 定义 于 的 

微分 精 为 n 重 积分 

ji(X) = -| Ac0ngptoasx =- 有 [log 庆 (z] (10.14) 


中 闵 (x) 是 习 的 联合 概率 密度 函数 。 
例 功 .1 均匀 分 布 “考虑 在 [0, 可 区 间 上 均匀 分 布 的 随机 变量 邢 ， 表 示 为 
了 0sxY 扫 1 
太 (z) = 必 他 
应 用 (10.12) ， 我 们 得 到 下 的 微分 粹 为 


天 (五 ) =- 人 : ,logldr =--| .0odx -0 
























































所 以 三 的 精 为 0。 、 于 
微分 灼 性 质 
从 式 (10.12) 给 出 的 微分 灶 六 碟 ) 的 定义 中 容易 看 出 平移 不 会 改变 它 的 值 ， 即 
有 (+ e) = 天 (也 ) (10.15) 
其 中 e 为 常量 。 
有 了) 另 一 个 有 用 的 性 质 是 
jax) = AZ) +loglal (10.16) 


其 中 e 为 比例 系数 。 为 了 证 明 该 式 ， 我 们 首先 知道 概率 密度 函数 曲线 下 方 的 面积 是 1， 故 
AD = Ai (10.17) 


1 cl 
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鞭 着 应 用 式 (10.12) ， 我 们 可 写成 
(7) = -五 [logA(y)] = - 引 [ol 计 4 | 缚 ] = 一 中 oa 二] log 1 el 
代入 Y= of 得 到 
Nam = -| CoDlepn(eode thglial 


由 此 立刻 得 出 式 (10.16)。 
式 (10.16) 用 于 纯 量 的 随机 变量 ， 也 可 以 推广 用 于 随机 向 党 科 乘 以 矩阵 A 的 情况 如 
下 : 





(ARK) = 及 (X) + log 1 det(A) | (10.18) 
其 中 det(A) 是 矩阵 A 的 行列 式 。 


10.3 最 大 炳 原则 


假设 有 一 个 随机 系统 ， 已 知 一 组 状态 ， 但 不 知 其 概率 ， 而 且 我 们 知道 这 些 状态 的 概率 分 
布 的 些 限 制 条 件 。 这 些 条 件 或 者 是 已 知 一 定 的 总 体 平均 值 ， 或 者 是 它们 的 一 些 界限 。 在 给 
定 关于 模型 的 先 验 知识 的 条 件 下 ， 问 题 是 选择 一 个 在 某 种 意义 下 最 佳 的 概率 模型 。 我 们 经 常 
发 现 有 无 穷 多 种 模型 可 以 满足 条 件 。 应 该 选择 哪个 模型 呢 ? 

这 个 基本 问题 的 答案 基于 Jaynes(1957) 提 出 的 最 大 灶 原 则 呵 。 最 大 精 原 则 可 以 陈述 如 下 
(Jaynes,1957,1982) : 


当 根 据 不 完整 的 信息 作为 依据 进行 推断 时 ， 应 该 由 满足 分 布 限制 条 件 的 具有 最 大 箭 的 概 
率 分 布 推 得 。 


实际 上 ， 寻 的 概念 在 概率 分 布 空间 定义 一 种 度量 ， 使 得 具有 较 高 匀 的 分 布 比 其 他 的 分 布 
具有 更 大 的 值 。 

从 上 面 陈述 ， 很 明显 “最 大 灶 问 题 " 是 一 个 约束 最 优化 问题 。 为 了 说 明 解 这 个 问题 的 步 

考虑 最 大 微分 迷 








60D = -| (za 二 


对 所 有 随机 变量 蕊 的 概率 密度 本 数 .A(x*)， 并 满足 以 下 约束 条 件 ， 
1.A(z)z0， 在 *x 的 支撑 集 之 外 等 式 成 立 


2 人 Poae cl 


3 人 HaDg(zja = 对 于 = 2 


其 中 及 (z) 是 x 的 一 个 函数 。 约 束 1 和 约束 2 描述 概率 密 庆 函 数 的 基本 局 性， 约束 3 定 
义 变量 X 的 矩 ， 它 随 函 数 g, (x) 的 表达 式 不 同 而 发 生变 化 。 实 际 上 ， 约束 3 综合 随机 变量 下 
的 可 用 先 验 知识 。 为 了 解决 这 个 约束 最 优化 问题 ， 我 们 利用 Lagrange 来 子 法 四 ， 首 先 形成 目 
标 函 数 

















10 = 人 [ARCOpapto rhor Men] (00.t) 
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其 中 ，…，)w 是 Lagrange 冬 子 。 对 被 积 函 数 求 户 (*) 的 微分 ， 并 使 其 为 0， 我 们 得 到 
一 1 一 logA(xz) + 加 十 en = 0 





解 此 方程 得 
(xz) = erp( -1+)+ Xe(n)) (10.20) 
所 


在 式 (10.20) 的 Lagmange 乘 子 根据 约束 条 件 2 和 3 选择 。 式 ( 10.20) 定 义 这 个 问题 的 最 大 分 
布 。 

例 切 .2 一 维 Guass 分 布 ”假设 我 们 可 用 的 先 验 知识 为 随机 变量 世 的 均值 上 和 方差 亚 。 
根据 定义 ， 得 全 














上 (一 有 访 (zd = 琴 = constant 
将 此 式 与 约束 条 件 3 作 比 较 ， 看 出 


EC) = (一 po = 
所 以 应 用 (10.20? 可 得 
太 (z) = expI-1+)o+NOz-t)2] 
注意 如 果 户 (xz) 和 (xz - o 廊 (z) 对 x 的 积分 是 收敛 的 ， 则 X 为 负数 。 将 此 等 式 代 入 约 东 条件 
2 和 3， 解 出 xx 和 六 我 们 得 到 





和) = 工 - log(2xo)，。 为 =- -二 


2 
所 以 希望 的 户 (z) 的 分 布 形式 为 
1 《zz 一 扣 
Ce) = | - 择 二 】 (10.21) 


我 们 知道 这 是 一 个 均值 为 上 和 方差 为 玉 的 Gauss 随机 变量 站 的 概率 密度 函数 。 这 样 的 随机 
变量 的 微分 病 的 最 大 值 为 


及 () = 3 + log(2xo)] 《10.22) 


对 这 个 例子 我 们 作 如 下 的 小 结 ， 

1, 对 于 给 定 的 方差 只 ， 在 任意 的 随机 变量 中 Ganss 随机 变量 取得 握 分 精 的 最 大 值 。 也 就 
是 说 ， 如 果 世 是 一 个 causs 随机 变量 ， 了 是 其 他 具有 相同 均值 和 方差 的 随机 变量 ， 则 对 所 有 
的 了 

六 (了 ) 福 (了 
只 有 当 半 与 了 相同 时 等 式 成 立 。 

2.Gaoss 随机 变量 光 的 炉 值 取决 于 X 的 方 兰 ( 即 与 了 的 均值 无 关 )。 

例 10.3 多 维 Ganss 分 布 ”在 这 第 二 个 例子 中 ， 我 们 想 在 例 10.2 的 结果 基础 上 ， 建 立 
计算 多 维 Gauss 分 布 的 微分 灿 的 计算 公式 。 由 于 Causs 分 布 的 炳 与 随机 变量 + 的 均值 无 关 。 
为 简化 讨论 ， 我 们 可 以 仅 讨论 具有 均值 为 0 的 随机 变量 和。 这 样 X 的 二 阶 统计 性 质 由 其 协 方 
差 矩 阵 互 决定 ， 它 为 买 同 自身 的 外 积 的 期 望 。 这 样 买 的 联合 概率 密度 函数 由 


_.Cx) = Je 一 下 《10.23) 
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给 出 (Wiks,1962)， 其 中 del 马 ) 是 互 的 行列 式 。 式 (10.414) 定 义 玉 的 微分 粮 。 因 此 将 (10.23) 
代入 (10.14)， 我 们 得 到 


AKCX) = 二 [mm + mlog(2r) + Jog ldet(Z) 上 (10.24) 


这 包括 式 (10.22) 作 为 其 特例 。 按 最 大 箭 原则 的 观点 ， 我 们 可 以 这 样 说 ， 对 于 给 定 的 一 个 协 
方差 年 阵 互 ， 在 所 有 零 均 值 本 枫 向 量 可 达到 的 微分 灯 中 ， 多 元 Gauss 分 布 基 有 有 最 大 的 微分 炳 ， 
此 最 大 微分 粹 式 (19.24) 定 义 。 国 


10.4 互信 息 


在 设计 一 个 自 组织 系统 时 ， 根 本 的 目的 就 是 仪 仅 根 据 输 入 模式 米 获得 - -个 学 习 算法 ， 该 
算法 能 够 学 习 输 入 和 输出 的 关系 。 在 这 个 背景 下 ， 由 于 互信 息 的 概念 有 很 多 好 的 性 质 ， 所 以 
非常 重要 。 为 了 以 后 的 讨论 ， 假 定 随机 系统 具有 输入 邯 和 输出 了 ， 而 十 瑟 和 了 只 允许 取 离 
散 的 值 ， 分 别 由 < 和 7 衣 示 - 粮 旺 (了 ) 表 示 天 的 先 验 不 确定 性 。 那 么 ， 当 观测 到 了 后 我 们 
如 何 度量 对 屯 的 不 确定 性 ? 为 了 回答 此 问题 ， 我 们 定义 在 给 定 卫 时 下 的 条 件 粒 为 (Gray ， 
19903; Cover 人 Thomas, 1991) 





于 ( 开 1 了 = 吾 (K 7 - 吾 ( 琅 (10.25) 
具有 性质 
0< 且 (XHEID < 吾 () (10.26) 
条 件 彤 羡 ( 必 | 轨 表 示 在 观测 到 系统 输出 了 后 ， 对 碟 保 留 的 不 确定 性 度量 。 在 式 (10.25) 中 
吾 ( 了 ,7) 荆 王 和 了 的 联合 精 ， 由 


五 ( 开 , 了 ) = ->) P(x,y)logp(x，y) 


E 贸 7E 才 
定义 ， 其 中 PC(x*,7) 是 离散 随机 变量 蕊 和 了 的 联合 和 碌 率 质 量 函 数 ， 而 时 和 虽 表 示 它 们 各 白 的 
字 走 表 。 

由 于 焙 (X)} 表 示 在 没有 观测 系统 输出 前 我 们 对 系统 输入 的 不 确定 性 ， 条 件 炳 召 ( 工 LI) 
表示 在 观测 到 系统 输出 后 对 系统 输 和 人 的 不 确定 性 ， 差 甩 (下 ) - 吾 (X1 太 表 示 观 察 到 系统 输出 
之 后 我 们 对 系统 输 和 人 的 不 确定 性 的 减少 。 这 个 量 就 叫做 随机 变量 长 和 了 之 问 的 互信 息 。 由 
所 切 表 示 ， 我 们 可 以 写成 ” 

开 IY)》 = 百 ( 汪 ) - 可 ( 开 1Y) 
忆 ( 
= ,YL 10.27 
歹 >) p(z,y) ol 《 ) 


xE 色 JE 合 
铺 是 所 信息 的 一 个 特例 ， 因 为 我 们 有 
肌 (X) = 天下 三) 
两 个 离散 随 负 变量 苇 和 了 的 互信 息 ZXi 六 有 如 下 的 性 质 (Cover and Thomas, 1991; Gray， 
1990) : 
1 .天 和 了 的 互信 息 具有 对 称 性 ; 也 即 
8 人 Ti) = 和) 
共 中 所 信息 7 环 ) 表 示 观 察 系 统 输入 工 ， 对 系统 笨 出 了 的 不 确定 性 的 减少 ， 而 7(4; 攻 ) 表 
示 观 测 系统 输出 后 对 系统 输入 的 不 确定 性 的 减少 。 
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2. 站 和 了 的 互信 息 总 是 非 负 的 ; 也 即 
TY) > 0 
实际 上 ， 这 个 性 质 说 明 ， 通 过 观测 系统 的 输出 了 7， 平均 说 来 我 们 不 可 能 入 失信 息 。 而 且 ， 当 
日 仅 当 输入 和 给 轴 统计 独立 时 互信 息 为 0。 
3. 瑟 和 了 的 互信 息 也 可 以 用 了 的 入 表示 为 
RN3Y) = 有 (7) -再 (了 1 三) (10.28) 

其 中 有 YI 旭 征 条 件 精 。 式 (10.28) 的 右 端 表示 系统 输出 y 的 总 体 平均 传达 信息 减 去 我 们 知 
道 系统 输入 马 后 关于 上 的 总 体 平均 传达 信息 KX;7)。， 后 个 量 月 (FIY) 传 达 关 于 处 理 噪声 
而 不 是 关于 系统 输入 夺 的 信息 。 

图 10-1 用 一 个 可 视 化 的 图 来 解释 等 式 (10.27) 和 (10.28)。 系 统 的 输入 兰 的 精 喇 (Y) 用 左 
边 的 圆 表示 ， 输 出 了 的 烂 豆 ( 玉 用 右边 的 园 表 未 ， 夺 和 工 的 弛 信息 用 图 中 的 两 圆 的 交集 表 


不。 






































和 0 及 





10-1 瑟 信 息 1X3P 和 焙 (中 及 炉 及 ( 咏 的 关系 说 明 


连续 随机 变量 的 互信 息 


给 定 一 对 连续 的 随机 变量 X 和 了 Y， 类 侯 式 (10.27)， 我 们 定义 随机 变量 X 和 了 的 互信 息 
为 


了 (YY) = 全 三 Ac 如 合作 性 叶 《10.29) 
其 中 户 ;(z,y) 是 王 和 了 联合 概率 密度 函数 ， 庆 (xz17) 是 当 了 = y 时 怠 的 条 件 娄 率 密度 函数 。 
注意 





产 rsy) = 户 人 (17) 广 (7 
所 以 我 们 也 训 以 写成 


rz， 
1 用 = 六方 二 Ken 次 和 区 ja 
同 前 面 讨论 的 离 仇 随机 安 量 类 似 。 连 续 随机 灾 重 X 和 了 的 互信 息 有 如 下 的 性 质 ， 
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天 57) = 下 症 ) ~ 下 (1 


= 有 六 -ARYTID (10.30) [ 吉 
= 有 (是 ) 十 下 (Y) -大 下 ,了 ) 

拒 下) = 玖 人 ) 《10.31) 
TXTY) 30 《10.32) 


参 赴 所 ) 是 并 的 微分 炳 ， 同 A( 咏 一 样 。 人 参量 RCXIZ 是 给 定 了 时 站 的 条 件 征 分 粮 ， 由 重 
积分 
AD = | Kaogtziy) 加 (10.33) 
定义 。 参 量 RKCTYIT) 是 给 定夺 时 了 的 条 件 微分 焙 ， 定 义 与 (XI1I 类 做 。 参 量 (X,W 是 于 
和 了 的 联合 微分 灶 。 
注意 式 (10.32)， 只 有 在 随机 变量 Y 和 了 统计 独立 时 等 式 才 成 立 。 当 满足 此 条 件 时 ， 马 
和 了 的 联合 概率 密度 上 数 可 分 解 成 
广 r(zy) = Ptz)7r(7) (10.34) 
其 中 A(z) 和 六 (7y) 分 别 是 二 和 了 的 边沿 概率 密度 攻 数 。 等 价 地 ， 我 们 写成 
Atxz1y)= 态 (z) 
这 就 是 说 了 的 结果 的 知识 完全 不 能 影响 下 的 分 布 。 将 其 代入 式 (10.29) 导 致 KX;T) =0。 
在 式 (10.29) 中 给 出 的 互信 息 适用 于 纯 量 随机 变量 蕊 和 了 。 这 个 定义 也 易于 扩展 至 随机 
向 量 X 和 王 ， 因 此 我 们 可 以 写成 K(X;Y)。 特 别 地 ， 我 们 定义 !(X;iY) 为 多 重 积分 : 


TcD = 六 三 msopaae( ee)ax 好 (10.39) 


所 信息 (X;Y) 同 样 具有 与 式 (10.39) 至 式 (10.32) 的 关于 纯 量 随 机 变量 性 质 平行 的 性 质 。 
10.5 Kullback-Leibler 散 度 


在 式 (10.11) 中 我 们 定义 离散 随机 变量 Kallhack-Leibler 散 度 。 这 个 定义 也 可 扩展 到 随机 
向 量 的 一 般 情 况 。 六 (xz) 和 gx(x) 表 示 严 x 1 的 中 机 向 量 X 的 是 个 相同 的 概率 分 布 函数 。 根 
据 式 (10.11)， 我 们 可 以 定义 户 ( 和 gxfz) 的 Kallhack-Leibler 散 度 为 (Kullback ,1968;Shore and “5 
Johnson ,1980) 








人 加 ) dx 


er (10.36》 


下 号- 人 Acoom 


Kuliback-Ieibler 散 度 有 一 些 特 有 的 性 质 : 

1. 它 总 是 正 的 或 为 零 。 在 特殊 的 条 件 下 ， 当 户 (x) = gx (xz 时 ， 两 个 分 布 完全 重合 ， 而 
Dris 正 好 为 零 。 

2. 对 于 向 量 x 的 各 分 量 作 如 下 的 改变 ， 其 值 不 变 : 

。 各 分 量 依 序 置换 

。 乘 以 一 个 比例 系数 

。 单调 非 线性 变换 

一 对 向 量 X, 立 之 间 的 互信 息 KX3Y) 用 Kallback-Leibler 散 度 有 一 个 有 趣 的 解释 。 首 先 ， 











辆 
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我 们 注意 到 
Arg) = (DA (10.37) 
所 以 ， 可 以 将 式 (10.35) 改 写成 如 下 的 等 价 形式 ; 
KR;Y) = 厂 太 Asp 总 5 区] ax dy 
将 其 与 式 (10.36) 作 比较 。 我 们 立即 排 得 
17CX5Y) = 太 An (10.38) 
总 的 来 说 ，X 和 之 问 的 工 信 息 等 于 联合 概率 密度 函数 户 .(x,y) 以 及 概率 密度 丙 数 记 ( 妆 和 
(7) 的 乘积 的 Kallback-Leibier 散 度 。 
后 一 结果 的 特例 是 m x !1 的 随机 向 量 X 的 概率 密度 函数 六 (x) 和 它 的 mm 个 边缘 概率 密 放 
范 数 的 Kullback-Leibler 散 度 。 令 六 (* ) 表 示 第 让 个 元 素 盛 的 边缘 概率 密度 函数 ， 由 


户 () = 全 二 ooax?， 12 下 (10.39) 


定义 ， 其 中 K "是 一 个 从 x 中 除去 第 计 个 元 素 后 的 (mm - tU) x 1 向 量 。 户 (x) 和 析 因 分 布 
本 ,万 (5 ) 的 kalbaok-Leibler 散 度 定义 为 





Di = | 直 7 相 je 《10.40) 
也 可 以 写成 展开 形式 
帮 有 = eolahCoax- 袜 六 aeomsr coarx (0.41) 


按 定 义 ， 式 (10.41) 右 边 第 一 个 积分 等 于 - #( 和 X)， 其 中 天 ( 和 ) 是 X 的 微分 精 。 为 了 处 理 第 二 
项 ， 我 们 首先 注意 到 




















EX = RD dt 
因此 可 以 写成 
和 Anls (sa = 人 eeoaxo (10.42) 
其 中 右 疯 肉 居 积分 是 对 (mm - 1) x 1 向 量 x@ 积 分 ， 而 外 层 积分 是 对 标量 x 积分 。 但 从 


(10.39)， 我 们 发 现 内 层 积分 实际 上 等 于 边缘 概率 密度 函数 疡 (zx )。 由 此 可 以 将 (10.42) 重 写 
为 等 价 形式 





人 AceDaska)ax= | 六 (a)iog 玉 (aa 
= 一 天 ( 蕊 )， = 2 下 (10.43) 
其 中 (也 ) 是 第 个 边缘 精 ( 即 边缘 概率 密度 丽 数 户 (x ) 的 微分 炳 )。 最 后 将 式 (10.43) 代 入 
式 (10.41)， 并 注意 式 (10.41) 中 的 第 一 个 积分 为 - #(X)， 我 们 将 式 (10.41) 的 Kallback-Leibler 
散 度 化 简 为 











了 -200+ 马 ix {10.44)》 
这 个 公式 将 在 本 章 后 面 讨论 育 源 分 离 问 题 中 待 别 有 用 。 
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Pythagoras 分 解 


下 面 我 们 考虑 概率 密度 函数 太 ( 轨 和 户 ( 之 间 的 Kalback-TLeibler 散 度 。 普 x 1 随机 向 量 
末 是 出 严 个 独立 的 变量 组 成 ,让 





Go = 下 Ra) 
表示 ， 面 mxl 的 随机 变 基 X 通 过 品 定 义 为 
和 = AU 

其 中 A 是 -个 非 对 角 和 矩阵 。 令 产 (和 ) 表 示 从 户 ( 妇 导出 的 每 :个 互 的 边缘 概率 密度 ， 则 
六 (和 万 ( 史 之 间 的 Kallback-Leibler 散 度 可 以 作 如 下 的 Pythagoreas 分 解 : 

万 im = 忆 + 耗 nm 《10.45》 
我 们 之 所 以 称 这 个 经 典 的 关系 为 Prthagoreas 分 解 ， 是 因为 它 具 有 信息 -几何 解释 (Amari， 
1985)。 在 注释 四 中 给 出 这 种 分 解 的 证 明 。 


10.6 互信 息 作 为 最 优化 的 目标 函数 


现在 我 们 对 Shannon 的 信息 论 模型 已 经 有 了 适当 的 了 解 ， 可 以 讨论 它 在 研究 自 组 织 系统 
的 作用 。 
为 了 进行 讨论 ， 设 有 一 个 多 输入 /多 输出 的 神经 网 络 系统 。 在 这 里 主要 目标 是 为 一 个 特 

定 任务 (例如 ， 建 模 、 抽 取 统 计 突 出 特征 或 信号 分 离 ) 而 设计 的 系统 进行 自 组 织 。 通 过 选择 某 

些 系 统 变量 间 的 互信 息 作 为 优化 的 目标 孙 玫 ， 这 个 要 求 可 以 满足 。 这 种 特定 的 选择 应 该 考虑 

述 索 ， 

， 互信 息 如 同 10.4 节 的 讨论 有 ~- 些 独特 的 性 质 。 

。 无 需 教师 也 可 确定 ， 这 样 自 组 织 的 假定 自然 满足 。 

问题 变 成 了 系统 调整 自由 参数 ( 即 突 触 权 值 ) 以 优化 皇 信 息 的 问题 。 

根据 应 用 的 不 同 ， 我 们 能 够 确定 如 图 10-2 所 示 的 4 种 不 同情 况 ， 它 们 都 可 能 在 实际 中 
出 现 。 这 些 情况 可 以 描述 如 下 : 

，*” 在 10-2a 描绘 的 情况 1， 输 人 向 量 买 由 分 量 书 , 克 ,…: 闷 组成， 输出 向 量 了 由 分 
量 芒 , 玉 ，…, 卫 组成。 需求 是 最 大 化 传送 到 系统 输出 的 关于 系统 输入 入 的 信 
息 。 

在 10-2b 描绘 的 情况 2， -对 输 人 向 量 X。 和 X, 是 从 相 邻 但 不 重合 的 图 像 区 域 截取 而 

来 。 各 自 产生 的 纯 量 输出 分 别 是 也 和 品 。 需 求 是 最 大 化 传送 到 到 的 关于 防 的 信 

息 ， 以 及 相反 的 需求 。 

。 在 图 10-2c 描绘 的 情况 3。 输 和 人 向 量 X。 和 允 足 从 两 幅 不 同 的 图 像 相 应 部 分 截取 而 
来 。 各 自 产生 的 输出 分 别 是 屎 和 了 本 ， 需 求 是 最 小 化 传送 到 兄 的 关于 驴 的 信息 。 

*。 在 图 10-2d 描绘 的 情况 4， 输 入 向 量 X 和 输出 向 量 Y 与 艾 10-2a 定义 的 形式 相似 ， 但 
有 相同 的 维 数 { 即 != 由)。 这 里 的 目标 是 使 输出 向 量 立 的 各 分 量 之 间 的 统计 依赖 最 
小 已。 

在 所 有 的 这 些 情况 下 ， 互 信息 扮演 中 心 的 角色 。 但 是 ， 它 的 推导 过 程 还 是 要 根据 所 考虑 
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最 大 化 传送 到 Y 的 关于 忆 
的 信息 
硬 co 一 Te 交 下 -一 o 态 
征 和 | 
天 ; 由 间 的 统计 依 夭 
天 oO- 一 >| 广 一 六 国 DJ 
二 由 
aa 
oO 7 2 六 2 


最 大 化 持 送 到 丈 的 关于 和。 草 小 化 传送 到 Jo 的 关于 








放 也 的 信息， 或 相反 如 了 的 情 息 ， 或 相反 
2 Ta 

和 | : 了 下 上 取 < 一 
Mam Mom 


吕 品 
图 102 适用 于 Jafomax 必用 及 它 的 二 个 变 体 的 四 个 基本 情况 

的 具体 情况 而 定 。 人 在 本 章 余 下 的 部 分 将 以 刚才 罗列 的 顺序 讨论 涉及 这 些 情况 的 问题 以 及 它们 
的 实际 含义 。 
10.7 最 大 互信 息 原则 

设计 一 个 神经 处 理 器 使 互信 息 元 YX) 最 大 的 思想 作为 统计 信号 处 理 的 基础 是 吸引 人 
的 。 这 种 优化 方法 在 Linsker( 1987,1988a,1989a) 提 出 的 最 大 互信 息 (maxinmm mutual infommation 
(Iafomax) ) 原则 中 得 以 体现 ， 它 可 正式 陈述 如 下 ， 

从 神经 系统 的 输入 层 观 测 到 的 随机 人 向量 辟 到 系统 的 输出 层 得 到 的 随机 向 量 了 之 间 的 变 
换 应 该 这 样 选择 ， 这 种 变换 使 得 输出 居 神 经 元 的 活动 共同 最 大 化 关于 输入 层 神经 元 的 活动 的 
信息 。 最 大 化 的 目标 艺 数 是 向 量 买 和 和 之 间 的 互信 息 并 和 )。 


最 大 互信 息 原则 提供 一 个 解决 如 图 10-2。 所 描述 的 信息 传输 系统 自 纽 织 的 数学 框架 ， 它 
独立 于 实现 它 所 使 用 的 规则 。 同 样 ， 这 个 床 则 也 可 以 看 作 信道 容量 这 个 概念 在 神经 网 络 中 的 
对 应 物 ， 信 道 容量 定义 为 通过 一 个 通信 信道 的 信息 传输 率 的 shannon 极限 。 

接 下 来 ， 我 们 给 出 两 个 涉及 有 噪声 的 单 神经 元 的 例子 说 明 最 大 所 信息 原则 的 应 用 。 在 -- 
个 例子 中 噪声 出 现在 输出 端 ， 硬 在 另 一 个 例子 中 嗓 声 沿 现 在 输入 端 。 

例 和 .4 靶 处 理 噪 声 破 坏 的 单 神经 元 ”考虑 线性 神经 元 的 简单 情形 ， 假设 系统 从 症 个 
源 节 点 接受 输入。 令 该 神经 元 的 输出 中 出 现 处 理 噪声 ， 林 表示 为 


》 = ( 症 wfr)rN (10.46) 


其 中 um 为 第 ; 个 罕 触 权 值 ，N 为 处 理 噪声 ， 如 图 10-3 所 示 的 模型 。 假 设 ， 
，* 输出 了 工 是 一 个 以 方差 为 ; 的 Gauss 随机 变 景 ; 
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。 处 理 噪声 N 也 是 一 个 Causs 随机 灾 量 ， 
均值 为 0， 方 盖 为 ms 
， 处 理 噪声 N 与 输入 向 量 的 任何 一 个 分 其 
部 不 相关 ， 也 即 
ELNE1=0 对 所 有 的 
输出 了 的 高 斯 性 可 以 用 两 种 方法 之 一 得 到 满足 。 





输入 看 ,五 ，…， 筷 全 部 是 Gauss 分 布 的 ， 肯 
假设 附加 的 噪声 N 也 是 高 斯 的 ， 则 Y 的 高 斯 性 
可 以 保 让 ， 这 是 由 于 一 组 Gauss 分 布 的 随机 变量 图 10-3 单个 嗓 声 神经 元 的 信号 流 图 


的 加 权 和 仍 是 此 斯 的 。 或 者 和 输入 站 ， 环 ，…， 
刀 是 独立 同 分 布 的 ， 在 m 很 大 的 条 件 下 利用 中 心 极 限定 理 它们 的 加 权 和 趋 于 Causs 分 布 。 

为 了 进行 分 析 ， 我 们 首先 注意 在 式 (10.30) 的 第 二 行 ， 输入 向 量 愉 与 输出 变量 了 之 间 的 
互信 息 天 了 和 ) 是 

开辟) = 有 CE -大 ( 工 1 性 ) (10.47) 

根据 式 (10.46)， 注 意 在 已 知 输 入 向 量 买 的 情况 下 ， 和 输出 Y 的 概率 密度 函数 等 于 一 个 常数 扣 
上 一 个 Causs 分 布 的 随机 变量 的 概率 财 度 咕 数 。 因 此 ， 条 件 丧 二 (YIX) 是 由 输出 神经 元 传送 
的 关于 处 理 噪声 N 而 不 是 向 量 尺 的 “信息 ”、 我 们 可 以 设置 


























(YITX) = RN) 

因此 式 (10.47) 可 以 重新 简化 为 

JUOX) = AP -EN (10.48) 
应 用 式 (10.22) 关 于 Causs 随机 变量 的 微分 炳 到 当前 的 问题 ， 我 们 得 到 

AD = 二 [1+ log(2ro)] (10.49) 
AKCN) = 去 [1+ ug(2n 鸡 ) 《10.50) 

经 过 化 简 ， 糙 式 (10.49) 和 式 (10.50) 代 入 式 (10.48) 得 
717:X) = 去 ae[ 字 ) {10.51) 

其 中 叶 依赖 于 中 。 


比值 中 /cs 可 看 作 信 噪 比 。 假 设 嗓 声 方差 四 为 固定 的 约束 条 件 ， 从 (10.5 日 看 出 互信 息 
开怀 ) 通 过 神经 并 输出 了 的 方差 吧 的 最 大 化 亨 成 为 最 大 化 的 。 因 此 可 以 这 样 说 ， 在 一 定 的 
条 件 下 ,使 神经 元 输出 的 方差 最 大 化 也 就 是 使 神经 元 的 输出 信号 和 它 的 输 和 人 之 间 的 互信 息 最 
大 化 (Linsker,1988a)。 国 

例 10.5 受 附 加 输入 噪声 影响 的 单个 神经 元 ”假设 噪声 影响 在 每 一 个 输入 节点 的 突 触 
末端 的 线性 神经 元 的 行为 ， 如 图 10-4 所 示 。 根 据 这 第 二 个 噪声 模型 我 们 有 


Y= 2 四 ( 有 中 +ND) 《10.52) 


其 中 假设 每 个 N 是 一 个 独立 Gauss 随机 变量 ， 其 均值 为 0， 方差 为 品 。 我 们 可 以 将 式 
(10.52) 改 写成 类 似 式 (10.46) 的 形式 
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( 
其 中 立 是 虽 声 分 量 的 


上 
[9 
总 
之 


人 


噪声 W 足 一 个 Gauss 分 布 ， 其 均值 为 0。 方 差 为 所 
有 独立 史 声 分 量 方 益 的 加 权 和 ;， 即 是 


路 = 人 
气 
5 与 前 类 似 ， 我 们 假设 神经 元 的 输出 变量 了 昆 方 益 
为 中 的 Gauss 分 布 。 了 和 之 间 的 互信 息 扩 7 
民 ) 同 样 由 式 (10.47) 给 出 . 但 是 ， 这 :- 次 条 件 丧 
AL 定义 如 下 : 图 10-4 另 -个 噪声 模型 
CYTX) = AN 


= 去 G + 2m 达 ) (10.53) 




















= 去 [1 + 2rdh 袜 四 ] 
这 样 ， 将 式 (10.49) 和 (10.53) 代 入 式 (10.47) 并 简化 ， 可 得 (Tinsker,1988a) 


TCF;X) -= 工 lo 一 (10.54) 
” 2 " 砍 忆 














在 约束 加 保持 一 个 常量 条 件 下 ，5(Y;X) 的 最 大 化 就 是 比值 中 ADr ee 的 最 大 化 ， 其 中 于 
是 mwi 的 消 数 。 国 

我 们 可 从 例 10.4 和 例 10.5 推出 什么 结论 ”首先 ， 从 给 出 的 两 个 例子 可 以 看 出 ， 应 用 最 
大 业 原 则 的 结果 依赖 于 问题 。 对 于 给 定 噪声 方差 中， 最 大 化 互信 息 风 Y;X) 和 应 用 于 图 10-3 
的 模型 输出 的 方 盖 之 间 的 等 价 ， 并 不 能 直接 转 到 图 10-4 的 模型 。 只 有 当 对 图 10-4 的 模型 加 
上 歹 , 双 = ! 的 约束 时 ， 轿 10-4 和 网 10- 3 所 代表 的 模型 才 有 相似 的 行为 。 

一 般 说 来 ， 确 定 输 人 向 量 和 与 输出 向 量 立 的 互信 息 KY;X) 是 -- 件 很 困难 的 事 。 在 例 
10.4 和 例 10.5 中 ， 为 了 数学 上 分 析 的 方便 ， 我 们 假设 系统 噪声 分 布 是 一 个 或 多 个 噪声 源 的 
多 元 Gauss 分 布 。 这 个 假设 需要 说 明 其 合理 忻 。 

当 采 用 Gauss 噪声 模型 时 ， 本 质 上 是 采用 号 信 息 的 一 个 替代 ， 其 计算 的 前 提 是 神经 元 的 
输出 向 量 立 是 一 个 均值 向 量 和 协 方差 矩阵 都 与 实际 情况 相同 的 多 维 Gauss 分 布 。 在 Linsker 
《1993) 中 ， 利 用 Kulback-Leibier 散 度 提供 对 于 这 种 条 件 下 的 替代 互信 息 的 一 个 原则 性 理由 ， 
这 些 都 假设 网 络 已 经 存储 关于 输出 向 量 了 的 均值 向 量 和 协 方差 抢 阵 而 不 包含 更 高 阶 统计 。 

最 后 ,在 例 10.4 和 例 10.5 给 出 的 分 析 情 况 只 是 对 于 一 个 神经 元 进行 的 。 有 毫 这 样 做 是 
意识 到 : 为 了 最 大 互信 息 原则 在 数学 上 易于 处 理 ， 最 优化 应 该 在 局 部 神经 元 级 进行 。 这 种 优 
化 符合 白 组 织 的 本 质 。 

例 10.6 在 例 10.4 和 例 10.5 中 ,考虑 了 带 有 噪声 的 神经 元 。 在 本 例 中 我 们 研究 一 个 无 

[加 1 噪声 的 网 络 ， 它 将 任意 分 布 的 随机 向 量 X 变换 为 新 的 随机 向 量 Y。 注 意 KCXiY) = KCY;X)， 
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并 且 在 这 里 展开 式 (10.28)， 可 以 将 输入 X 和 输出 芋 之 间 的 互 请 息 诊 达 为 
(YX) = 旦 (了 Y) -YITX) 

黄巾 妇 Y) 是 的 炉 (YI1X) 是 在 给 定 系 的 条 件 下 壮 的 条 件 粒 。 假 设 人 共和 到 了 的 映射 是 
无 噪声 的 ， 条 件 痛 取 其 最 小 的 可 能 值 : 它 发 敌 到 - m 。 这 是 由 于 在 10.2 节 讨 论 的 连续 随机 
变量 箭 的 微分 特性 的 必然 结果 。 但 ， 当 我 们 考虑 互信 息 风 Y;X) 对 参数 化 映射 网 络 的 权 值 
和 邱 阵 W 的 梯度 时 ， 这 个 困难 并 不 造成 什么 后 果 。 特 别 是 ， 我 们 可 以 写成 

9ffYiX) 97CY) 

中 


9 有 
因为 条 件 炳 与 W 独立 。 式 (10.55) 表 明 ， 对 于 一 个 无 噪声 映射 网 络 ， 最 大 化 输出 立 的 焙 就 等 
于 最 大 化 立 和 网 络 输入 太 之 间 的 工 信 息 乒 (X;Y)， 都 足 关 于 映射 网 络 权 算 阵 风 求 最 大 化 
《Bell and Sejnowski,1995)。 图 


10.8 最 大 互信 息 和 宛 余 减少 


在 Shannon 的 信息 论 框 巢 中 ， 序 和 结构 代表 完 余 ， 它 减少 接受 方 对 信息 分 辩 的 不 确定 
性 - 在 固有 过 程 中 我 们 拥有 的 序 和 结 爸 越 多 ， 则 观察 这 个 过 程 我 们 获得 的 信息 量 就 越 少 。 例 
如 考虑 高 度 结构 化 和 和 宛 余 的 序列 aaaaaa。 一 下 得 到 第 一 个 样本 e， 则 我 们 就 可 以 立即 知道 
其 余 后 面 五 个 都 是 一 样 的 。。 这 样 的 一 个 序列 所 传递 的 信息 的 极限 是 单个 符号 传递 的 信息 
景 。 换 名 话说， 样本 序列 的 宛 余 越 大 ， 从 环境 中 获取 的 信息 内 容 也 就 越 少 。 

从 互信 息 KY;X) 的 定义 ,我 们 知道 这 是 对 一 个 系统 在 已 知 葵 入 为 和 时， 对 输出 立 的 不 
确定 性 的 度量 。 最 大 互信 息 的 方法 是 使 立信 息 K(Y; 和 X) 最 大 ， 其 结果 是 我 们 在 观测 到 答 人 为 
刁 时 ， 对 系统 输出 Y 增 加 确定 性 。 考 虑 到 前 面 提 到 的 信息 与 元 余 之 问 的 关系 ， 因 此 我 们 可 
以 说 ， 最 大 互信 息 原则 导致 与 在 输入 X 中 的 宛 余 比较 而 言 减 少 输出 Y 中 的 宛 余 。 

噪声 的 出 现 是 推动 使 用 完 余 以 及 相 异 性 (diversiy) 相 关 方 法 的 一 个 因素 (Linsker, 1988a) - 
当 输 和 人 信号 的 附加 性 噪声 很 高 时 ， 我 们 可 以 利用 宛 余 来 减少 噪声 的 效果 。 在 这 种 环境 下 ， 答 
和信 信号 之 间 的 更 多 (相关 ) 分 量 都 由 处 理 器 组 合 起 来 ， 以 提供 输入 的 精确 表示 。 癌 样 ， 当 和 输出 
端的 噪声 ( 即 处 理 器 噪声 ) 很 高 时 ， 给 出 虽 多 的 输出 分 量 以 提供 完 余 信息 。 在 处 理 器 输出 端 观 
测 到 的 相互 独立 的 属性 也 相应 地 减少 了 ， 但 各 个 属性 表示 的 精确 度 反而 提高 了 。 因 此 我 们 可 
以 这 样 说 ;高 水 平 的 嗓 声 有 利于 表示 的 完 余 。 介 是 ， 当 嗓 声 水 平 很 低 时 ， 表 示 的 相 异 性 比 宛 
余 更 有 利 。 我 们 用 相 异 性 表示 处 理 器 产生 两 个 或 多 个 具有 不 同性 质 的 输出 。 习 题 10.6 讨论 
的 完 余 / 相 异 性 的 折 中 是 由 最 大 互信 息 观 点 得 来 的 。 值 得 一 提 的 完 余 / 相 异 性 折 中 与 第 2 章 提 
到 的 偏 革 / 方 差 折 中 是 类 似 的 。 


感知 系统 建 模 


自从 信息 论 的 早期 ， 就 提出 了 感觉 消息 (刺激 ) 的 元 余 对 感知 理解 非常 有 用 (Atineave， 
1954; Badow,1959)。 感 觉 消息 的 元 余 提 供 了 和 人 脑 建立 其 周围 环境 的 “ 认 知 映射 "或 “工作 模型 
《Barlow,1989)。 在 感觉 消息 中 规则 必须 以 某 种 方式 被 人 脑 编 码 ， 使 它 知道 什么 经 常 发 生 。 但 
足 ， 宛 余 减 少 是 Barlow 假设 的 特定 形式 。 这 个 假设 说 早期 处 理 的 目的 是 将 高 元 余 的 感觉 输入 
转化 成 更 有 将 的 析 因 码 (factoal code) 。 换 名 话说， 在 输入 条 件 下 使 神经 元 输出 统计 独立 。 

受 Baqow 假设 的 启发 ，Atiek and Redlieh(1990) 提 出 把 最 小 宛 余 原 则 作为 如 图 10-5 所 示 的 


《10.55) 
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2366 吉 凡 改 
感知 系统 的 信息 论 和 模型 的 基础 。 系 统 的 由 一 个 部 分 组 成 : _ 输 入 还 和 重 编码 系统 ， 输 出 通 
道 -: 输入 通道 的 输出 可 以 去 示 为 全 1 

X=S+N 
其 中 8 是 输入 通道 接收 到 的 理想 信号 ，N， 
假设 为 输入 中 所 训 品 声 的 源 。 随 后 信号 
被 线性 年 阵 算 了 了 AA 变换 ( 重 编 码 )， 然 后 通 














“ 葵 入 通过 “条 册 通才 
过 视觉 神经 或 输出 道道 传输 ， 产 生 输 出 Y、 ( 规 觉 神经 ) 
胡 示 为 图 10.5 感知 系统 模型 、 信 号 向 好 s 和 噪声 
TY = AX+ IN 向 量 w 和 w 分 别 旦 随机 向 量 S，N 和 N, 的 值 





其 中 N 志 示 后 编码 本 身 的 躁 声 。 存 Atick 

和 Rediich 的 方法 中 ， 观 察 到 达 视 网 膜 的 光 信 和 号 包含 一 些 非常 有 用 的 高 部 祭 形式 的 感 党 信息。 
进一步 假设 在 信号 沿 视 觉 神经 发 送 以 前 视网膜 信号 处 理 的 自 的 就 是 减少 或 消除 由 于 互相 关 性 
和 咯 声 所 带 来 的 数据 元 余 。 为 了 和 定量 地 描述 这 种 观点 ， 一 个 宛 祭 度 度量 定义 如 下 : 


(YiS) 
及 = 1- EC 《10.56) 


其 中 必 Y;S) 是 了 和 8 之 间 的 下 信息 ，C(Y) 尾 视觉 神经 (输出 通道 ) 的 信道 容量 。 式 (10.56) 
的 合理 性 基于 人 脑 感 兴趣 的 信息 是 理 盆 的 输入 信号 $S， 但 是 信息 必须 经 过 的 物理 信道 实际 上 
是 视 党 神经 。 假 设 在 感知 系统 完成 的 输入 与 输出 映射 之 问 没有 维 数 碱 少 ， 这 意味 着 C(Y) > 
必 Y;S): 要 求 找到 一 个 输入 - 输出 映射 ( 即 抢 阵 A) 使 元 余 度 度量 R 达到 最 小 日 满足 不 丢失 
信息 的 约束 ， 林 以 表示 为 





YIX) = [XIX) - 
其 中 * 是 一 个 很 小 下 参数 ， 信 道 容量 C(Y] 定 义 为 保持 平均 输 人 能 量 固定 的 条 件 下 和 对 所 有 
应 用 于 它 的 输入 的 概率 分 布 ， 可 能 流 过 视觉 神经 的 最 大 信息 率 。 

当 信号 向 量 S 和 输出 向 景 硅 有 相同 的 维 数 和 系统 存在 噪声 时 ， 最 小 元 余 度 原 则 和 最 大 
互信 息 原则 是 数学 上 等 价 的 ， 只 要 假 痰 在 两 种 情况 下 箱 出 神经 元 计算 能 力 的 约束 相同 。 具 体 
地 ， 假 设 根据 图 10-5 的 模型 中 传道 容量 的 度量 取决 于 每 一 个 神经 元 输出 的 动态 范围 。 那 么 ， 
根据 最 小 宛 余 度 原则 ， 对 于 一 个 给 定 的 允许 信息 丢失 ， 以 及 从 而 对 于 一 个 给 定 的 KY;S)， 
需要 最 小 化 的 量 定 义 为 











ZCY:S) 
1 


因此 ， 这 样 最 小 化 的 量 本质 上 为 
PCY3S) = CTY) - XICY;S) 《10.57) 





另 一 方面 ,根据 最 大 互信 息 原 则 ， 在 图 10-5 的 模型 中 需要 最 大 化 的 量 为 
PCYS) = TYIS) +ACCY) 《10.58) 
虽然 丽 数 玉 (Y;S) 和 已 (Y;S) 并 不 相同 ,但 是 它们 的 最 优化 产生 相同 的 结果 : 它们 都 是 
Iagrange 乘 子 法 的 公式 ， 仪 仅 是 K(Y;S) 和 C(E) 简 单 地 所 换 了 角色 ，。 
从 这 些 讨 论 中 注意 到 这 样 一 个 重要 的 观点 : 虽然 公式 不 同 ， 但 是 这 两 个 信息 论 的 原则 产 
生 相 似 的 结果 。 和 总 的 来 说 ， 一 个 神经 网 络 输入 和 输出 之 问 的 互信 息 的 最 大 化 确实 可 以 导出 郊 
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余 削 碱 ”。 
10.9 空间 相干 特征 


在 10.6 节 中 提出 的 最 大 互信 息 原 则 ， 主 要 应 用 于 如 岁 10-2a 所 示 的 情况 下 ， 神 经 系统 的 
输出 向 量 立 和 输入 向 量 买 之 间 的 生 信 息 KKY;:X) 作 为 一 个 求 最 大 值 的 目 慰 函数 。 在 术语 上 作 
适当 改变 ， 我 们 可 以 将 其 扩展 到 自然 景物 图 像 的 无 监督 处 理 中 (Becker and Hinton,1992)。 一 
个 末 处 理 的 图 像 的 像素 ， 虽 然 形式 很 复杂 ,但 是 包含 我 们 感 兴趣 的 景物 的 丰富 信息 特别 
是 ， 每 个 像素 的 密集 度 受 内 在 参数 的 影响 、 例 如 深度 、 反 射 、 表 面 方向 和 背景 噪声 以 及 照明 
度 。 有 的 就 是 设计 一 个 白 组 织 系统 ， 能 够 学 习 将 这 种 复杂 的 信息 编码 成 一 种 简单 的 形式 。 更 
具体 一 点 ， 目 标 就 是 从 这 个 图 像 中 提取 能 够 展现 该 图 像 空间 相 于 的 高 阶 特征 ， 使 得 在 图 像 的 
空间 局 部 区 域 的 信息 去 示 很 容易 产生 邻近 区 域 的 信息 表示 ; 区 域 是 指 图 像 中 的 一 组 像素 的 集 
合 。 这 种 描述 的 情况 属于 图 10-2h 的 场景 。 

央 混 我 们 可 以 将 最 大 互信 息 原则 的 第 一 个 变 体 '9 说 明 如 下 (Becker, 1996; Becker and 
Hinton, 1992); 


两 个 向 量 入 和 跑 {( 找 表 一 个 神经 系统 相 邻 的 无 重 登 的 图 像 区 城 ) 的 变换 应 该 如 此 选择 ， 
使 得 输入 买 。 对 应 的 纯 量 输出 也 最 大 化 输入 X 对 应 的 纯 蝇 输出 所 的 信息 。 最 大 化 的 目标 画 
数 就 是 输出 下 和 了 肪 之 间 的 互信 息 开 也 ;于 )。 


我 们 称 此 为 最 大 互信 息 原 则 的 变 体 ， 意 思 是 指 它 并 不 和 最 大 互信 息 原 则 相等 价 或 能 够 从 
其 推导 出 来 ， 但 必定 以 相似 的 精神 起 作用 。 
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图 10-6 按照 最 大 互信 息 的 第 一 个 变 体 处 理 图 像 的 两 个 邻近 区 域 


进一步 我 们 考虑 图 10-6 所 示 的 情况 ， 有 两 个 神经 网 络 { 模 型 ) c 和 8， 分 别 接受 输 和 人 为 

X。 和 居 , ， 来 自 周 一 图 像 中 相 邻 的 不 重 肆 区 域 ， 各 自 的 纯 量 输出 分 别 是 所 和 卫 。 令 8 表示 

于 和 马 中 共同 信号 分 量 ， 它 是 原始 图 像 的 两 个 相关 区 域 的 空间 相干 性 的 表示 。 我 们 可 以 将 
于 和 丈 看 成 共同 信号 $ 的 带 噪声 形式 ， 表 示 为 

了 = S+N。 (10.59) 

和 贡 =S+N， (10.60) 

AN. 和 吕 是 加 性 噪声 分 量 ， 假 设 为 统计 独立 的 零 均 值 Gauass 分 布 随机 变量 。 信 和 号 分 量 $ 也 假 
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雾 和 0O 洪 











设 为 Gauss 分 布 的 。 和 根据 式 (10.59) 和 式 (10.60)， 在 图 10-6 中 假设 模 捧 e 和 彼此 相 容 。 








利用 式 (10.30) 的 最 后 一 行 ， 攻 和 冯 的 互信 息 定义 为 
直系 5 丰 ) = 下 ( 科 ) 二 下 ( 态 ) -有 区) 
根据 式 (10.22) 关 于 Gauss 随机 变量 的 微分 业 ， 取 的 微分 彤 下 (于 ) 为 
( 王 ) = 二 + logf2rxo2)] 
其 中 吕 是 于 的 方差 。 同 理 得 兄 的 微分 业 为 


AZ) = 二 [1 + logC2xo)] 

















人 于 , 郧 ) = 1+ lg(2r) + 二 log ldet( 辐 | 
2x2 的 抢 阵 兄 是 忆 和 双 的 协 方差 拓 阵 ， 定 义 为 
三 - 史 人 
migaSb 人 
其 中 us 是 忆 和 了 浆 的 相关 系 教 ; 也 就 是 
-ELG = 姬 EDCG - 本 蕊 ] 


Go 








所 以 惩 阵 思 的 行列 式 为 
det() = mo- 抱 ) 
并 且 我 们 可 以 将 式 (10,64) 重 写 为 
及 也 ,中 )》 = 1*+ log(2r) + 村 logtaa(L -已 )] 
将 式 (10.62) ，(10.63) 和 式 (10.68) 代 人 式 (10.61) ， 并 化 简 得 
KZ) = -二 og(1 -已 ) 








《10.61) 


(10.62) 


(10.63) 


其 中 心 是 聊 的 方差 。 至 于 联合 微分 精 区 ， 允 )， 我 们 利用 式 (10,24) 得 


(10.64) 


(10.65) 


(10.66) 


《10,67) 


(10.68) 


(10.69) 


从 式 (10. 的 ) 我 们 立即 推出 ， 最 大 化 互信 息 内 蕊 ;五 ) 等 价 于 最 大 化 相关 系数 ps 。 这 从 直观 上 


看 也 是 满足 的 。 注 意 ， 出 pu 定义 ，lpw1s1l。 


最 大 化 拓 蕊 ; 吕 ) 可 以 看 作 统 计 学 中 求 标准 相关 的 非 线性 推广 Becker and Hinton,1992)。 
给 定 两 个 输入 向 量 ( 刺 激 )X, 和 和 (不 必 有 相同 的 维 数 ) 、 和 相应 的 有 两 个 权 向 量 w。 和 mm ， 
标准 相关 分 析 的 目的 就 是 指 找到 一 个 线性 组 合 丈 = 本 X。 和 六 = 加 Xs， 使 它们 之 问 的 相关 
性 最 大 (Andermon,T984)。 最 大 化 区 忒 区) 为 标准 相关 分 析 的 非 线性 推广 ， 是 由 于 图 10-6 中 








神经 网 络 内 蔡 模 块 设计 的 非 线性 。 





























经 元 网 络 来 解决 。 
10.10 空间 非 相 二 特征 














在 前 面 一 节 里 我 们 讨论 了 一 个 无 监督 的 图 像 处 理 过 程 ， 它 从 一 个 





























在 Becker and Hinton(1992) 中 ， 演 示 了 通过 最 大 互信 息 开 玫 ; 卸 ) 可 以 从 一 个 随机 体 视点 
中 提取 体 视 不 均衡 性 (深度 )。 这 是 一 个 很 困难 的 特征 提取 问题 ， 不 能 由 一 个 一 层 或 线性 神 


像 中 提取 空间 相 于 特 








_ 吝 受 矿 机 到 
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征 。 坝 在 我 们 将 讨论 与 那 下 相反 的 问题 。 具 体 地 说 ， 考 虑 图 10-2c， 














中 目的 是 增强 从 两 个 





不 同 图 像 中 抽取 相 羔 区 域 的 空 闻 差异。 在 图 10-2b 中 ， 我 们 是 求 模块 输出 间 的 互 仿 息 最 大 


化 ， 在 图 10-2e 中 我 们 做 相反 的 工作 。 
内 此 我 们 可 以 将 最 大 互信 息 原 则 的 第 二 个 变 体 ， 陈 述 如 下 ( 
1996): 

从 两 往 不 同 图 怕 对 应 的 区 域 得 到 的 数据 作为 两 个 输入 向 量 豆 。 
变换 的 选择 应 该 使 得 输入 X。 对 疾 的 系统 纯 量 输出 郧 关于 输入 s 
息 最 小 。 最 小 化 的 目标 画 数 是 输出 加 和 加 之 间 的 互信 息 开 隐 ; 鸭 








或 能 够 从 其 推导 出 来 ， 但 必定 以 相似 的 精神 起 作用 " 。 














Uknainee and Haykin, 1992， 


和 ， 和 神经 系统 对 它们 的 
对 应 的 系统 纯 量 输出 号 信 
)。 


同样 在 这 里 我 们 称 之 为 最 大 互信 息 原 则 的 变 体 ， 意 思 是 指 它 并 不 和 最 太 互 信息 诛 则 等 价 


最 大 互 机 信息 原则 的 第 二 种 变 体 在 埋 达 篇 振 测 定 (radar polarimetry ) 方 面 有 所 应 用 。 雷 达 
监视 系统 产生 一 对 (或 更 多 ) 我 们 感 兴趣 的 环境 的 图 像 ， 利 用 在 一 个 偏振 方向 上 传送 ， 在 相同 
或 不 同 售 振 方向 接收 得 到 反问 散射 。 人 和 偏振 可 以 在 垂直 方向 ， 也 可 以 在 水 平方 向 上 。 例 如 ， 我 











们 可 能 有 两 幅 雷 达 图 像 ， 一 幅 图 像 代表 相同 方向 (水 平 -水平 ) 的 偏振 ， 而 另 一 幅 为 交叉 方向 
(水 平 - 重 肯 ) 的 偏振 。 这 样 的 应 用 由 Ukrainec and Haykin( 1992,1996) 提 出 ， 属 于 在 一 个 双 偏 














振 雷 达 系 统 中 的 仿 振 目标 增强 。 研 究 中 雷达 景物 的 采样 描述 如 下 。 


偏振 方式 传播 ， 在 垂直 和 水 平 偏振 频道 接收 雷达 返回 。 感 兴趣 的 目标 就 是 设计 一 个 协 件 偏振 


扭曲 反射 器 来 将 偶然 偏振 旋转 90 度 。 在 普通 的 雷达 系统 操作 中 ， 























在 一 个 非 相 干 置 达 以 水 平 





T 





这 样 一 个 目标 的 探测 是 非 


常 困难 的 ， 既 因为 雷达 系统 的 缺 聊 也 因为 地 面目 标 会 发 生意 想不到 的 偏振 ， 并 反射 回来 产生 
杂 波 (olutter)。 我 们 发 现 需要 用 一 个 非 线 忻 映射 来 解释 普通 雷达 返回 结果 的 非 Gauss 分 布 。 
目标 增强 问题 灾 为 涉及 约束 二 次 函数 最 小 化 的 求解 问题 。 最 终结 果 是 一 个 处 理 后 的 交叉 偏振 
图 像 ， 它 在 月 慰 可 见 订 方面 表现 出 极 大 的 提高 ， 而 且 远 比 我 们 应 用 诸如 主 分 量 分 析 之 类 的 线 


性 技术 得 到 的 效果 要 好 得 多 。 因 为 模型 无 关 的 概率 密度 函数 估计 是 一 个 计算 量 非常 大 的 工 
作 ， 所 以 Ukeaire 和 Haykin 提出 的 模型 对 变换 后 的 数据 假设 是 Gauas 统计 分 布 的 。 两 个 Gauss 
变量 区 和 哆 的 互信 息 由 式 (10.61) 定 义 。 为 了 学 习 了 两 个 模型 的 突 触 权 值 ， 采 用 了 变通 的 方 
法 。 要 求 是 抑制 雷达 杂 波 ， 对 水 平 偏振 和 垂 喜 偏振 的 雷达 图 像 这 是 常见 的 。 为 了 满足 该 要 
求 ， 最 包 化 互信 息 必 丈 ;到 )， 满 足下 面 加 在 权 值 向 量 的 约束 条 件 : 








P= (arwrW]-D: 
其 中 风 是 网 络 总 的 权 值 矩 阵 ，tf . ] 是 括号 内 矩阵 的 迹 。 如 果 
VYwI(F 80)+MYwP=0 


《10.70) 


《10.71) 


成 立 ， 我 们 可 以 得 到 -个 稳定 点 ， 其 中 和 是 拉 格 朗 日 乘 子 。 利 用 拟 牛顿 最 优化 程序 寻找 最 小 


值 。 在 第 4 章 讨论 拟 牛顿 方法 。 














虚线 代表 两 个 模块 问 的 交叉 耦合 连接 。Causs 盯 数 的 中 心 在 区 间 内 
全 部 输入 区 域 ， 它 匀 的 宽度 选择 应 用 启发 式 规划。 图 10-8a 显示 一 












































图 10-7 显示 Ukrairec and Haykin(1992,1996) 所 用 的 神经 网 络 结构 。 对 每 个 模型 选择 一 个 
Gauss 径 局 基 函 数 网 络 (RBF) ， 这 是 因为 它 可 以 提供 一 系列 的 固定 基 函 数 的 好 处 ( 即 ， 有 一 个 
非 自 适应 隐藏 层 ) 。 输 入 数据 在 基 函 数 上 展开 ， 然 后 通过 线性 权 值 层 相 结合 ; 在 图 10-?7 中 的 














灼 匀 选 择 以 便 能 完整 覆盖 
个 在 安大略 计 岸 边 的 一 








公园 的 水 平 极 化 和 垂直 极 化 的 雷达 图 像 。 每 一 幅 图 像 的 范围 坐标 是 沿 水 平 轴 的 ,从 左 到 右 
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Gauss 径 向 基 范 数 


图 107 神经 处 理 器 框图 ， 它 的 目标 是 利用 一 对 偏振 测定 的 非 相干 雷达 
输入 抑制 背景 杂 波 ; 杂 波 抑制 由 最 小 化 两 个 模型 输出 的 互信 息 来 达到 


反 和 时 器 





图 108 a) 未 处 理 的 B - 扫 撕 雷达 图 像 (方位 第 和 范围 图 10.8 b) 最 小 化 图 10-8a) 的 两 幅 偏 振 雷 达 
对 比 )， 水 乎 - 水平 偏 振 ( 上 ) 和 水 平 - 垂直 ( 上) 偏振 图 像 之 间 的 互信 息 。 计 算得 出 的 合成 图 像 
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递增 ; 方位 角 囊 标 沿 重 直 轴 。 陆 10-8b 显示 采用 最 小 化 水 平 极 化 和 垂直 极 化 的 十 达 图 像 的 五 
信息 的 组 合 图 像 ， 一 个 非常 清晰 的 亮点 在 图 像 中 可以 看 出 来 ， 它 是 根据 雷达 从 放 在 湖 边 的 一 
个 协作 偏振 扭曲 反射 器 返 回 的 。 这 里 搞 述 的 信息 论 模型 的 杂 波 止 制 的 性 能 已 超出 了 普通 使 用 
主 分 量 分 析 方法 利用 投影 的 性 能 (Ukrainee and Haykin,1992,1996 )- 。 


10.11 独立 分 量 分 析 


现在 我 们 将 注意 力 集中 在 由 图 10-2d 描述 的 最 后 场景 。 为 了 使 那里 陈述 的 信 生 处 理 问 题 
更 加 具 体 化 ， 考 虑 图 10-9 的 方 框 狗 。 操 作 从 一 一 个 随机 源 站 量 U(n) 开 始 ， 其 定义 为 
= [De 
其 中 严 个 分 量 是 由 一 列 独立 沽 提供 的 。 这 里 考虑 对 间 序 列 ， 因 而 这 里 的 = 走 示 离散 的 时 间 。 
向 晶 0 应 用 到 一 个 线性 系统 中 ， 其 输入 输出 之 问 的 关系 由 一 个 非 奇异 的 m x m 的 称 为 混合 
短 阵 的 A 决定， 结果 是 产生 一 个 观察 向 量 X(n)， 它 和 U(=) 关 系 姐 F( 见 图 10- 10a) : 
XXX = AU 《10.72) 1510| 
其 中 和 = [if 和，, 轧 ]。 浙 向量 品 和 混合 矩阵 A 部 是 未 知 的 ， 我 们 所 知道 的 仅仅 是 观测 
商量 X。 给 定 刁 ， 问 题 是 找到 一 个 分 离 矩 阵 (demixing matrio) 色 ， 使 得 可 以 从 输 则 击 量 将 中 恢 
复 源 向 量 U( 见 图 10- 10b))， 定 义 为 












































= WX (10.73)》 [0 
其 中 Y= [入 ,到 ,及 ]。 通 常 假 设 源 信和 届 蕊 , 灰 ,…, 硕 是 零 殉 值 的 ， 这 样 可 观测 的 妈 ， 
2 各 也 是 均值 为 零 的 信号 。 对 分 离 器 的 输出 万 , 瑟 ,…, 交 也 同样 如 此 。 














上 


(9 

















图 10-9 用 于 言 源 分 离 问 题 的 处 理 器 方 框图 
向 其 u，x 和 了 分 别 是 随机 向 量 可 , 久 和 下 的 什 


观察 向 量 





图 10- 10 细节 摘 述 
a) 泥 合 矩阵 b) 分 离 矩 阵 





[2 
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我 们 可 以 定义 育 源 分 离 问 题 如 下 ， 
给 定 观测 向 量 买 的 W 个 独立 实现 ， 找 -- 个 混 会 给 阵 A 的 北 的 估计 。 


源 分 离 主要 利用 空间 相 异 性 ， 不 同 传感器 提供 的 向 量 X 的 实现 携 避 有 源 的 不 同 混合 。 
如 果 存 在 谱 相 措 性 ， 谱 的 相 异性 也 可 以 被 利用 ， 但 源 分 离 问 题 的 根本 方法 本 质 上 是 空间 的 ， 
通过 传感器 亩 不是 通过 时 间 妇 找 结构 ( Cardoso ,1998a) 。 

这 种 方法 用 于 衣 源 分 离 问题 是 可 行 的 ， 除 了 每 个 信号 成 分 有 一 个 任意 尺度 的 变动 ， 以 及 
你 号 的 徇 换 。 也 就 是 说 ， 可 以 找到 一 个 分 离 矩 阵 凤 。 它 的 每 个 列 是 混合 矩阵 A 中 的 某 列 的 
兽 换 和 乘 以 -个 比例 系数 ， 这 种 方法 可 以 表达 为 

Y=WX=- WAU-~DPU 

的 形式 ， 其 中 了 是 一 个 非 奇异 对 角 矩 阵 ，P 足 一 个 署 换 失 阵 。 

在 这 里 所 描述 的 问题 遂 常 称 为 育 ( 信 号 ) 源 分 离 问 题 n* ， 其 中 使 用 * 育 "这 个 术语 是 指 用 
于 恢复 原始 信号 的 仪 有 信息 包含 在 观测 向 量 X 的 实现 中 。 在 它 的 解答 中 内 在 的 原则 是 独立 
分 量 分 析 ( independent components analysis,ICA)(Comon,1994)， 这 可 以 看 作 是 主 分 量 分 析 (PCA) 
的 一 个 拓展 。 而 PCA 强制 到 至 多 为 二 阶 独立 的 ， 而 且 向 量 的 方向 限制 为 止 交 的 ， 而 1CA 对 
于 和 输出 向 量 Y 的 单个 分 量 限制 为 统计 独立 ， 并 有 皇 没有 正 交 性 的 限制 。 在 实际 中 还 应 注意 ， 
独立 分 量 分 析 的 实现 算法 仅 能 够 达到 * 尽 叮 能 统计 独立 "。 

在 多 种 应 用 中 都 出 现 育 源 分 离 问题 ， 和 包括 以 下 几 种 情况 : 

。 语音 分 离 。 这 种 应 用 中 向 量 x 由 一 些 诸 音 信号 通 过 线性 混合 而 成 ， 要 求 就 是 将 它们 

分 离 出 来 (Bell and Sejnowski,1995).， 这 种 情况 的 国难 形式 ， 例 如 ， 出 现在 电视 会 议 环 
境 。 

。 阵列 天 线 处 理 。 在 第 二 种 应 用 中 ,向 量 x 代表 由 一 个 错 达 阵列 天 线 产生 的 输出 ， 它 
从 林 知 方向 的 源 发 射 一 些 偶 然 的 窄带 信号 产生 (Cardoso and Souloumia, 1993; 
Swindlehurst et al, ,1997)。 这 里 的 要 求 也 是 分 离 源 信号 。( 对 罕 带 信 叶 我 们 是 指 一 个 带 
通信 号 ， 它 的 带宽 比 载 波 频率 小 。) 

” 多 传感器 生物 医学 记录 。 在 这 第 三 种 应 用 中 ， 向 晤 x 由 用 于 监视 牛 物 们 号 的 一 些 传 

感 器 产生 的 记录 组 成 。 例 如 ， 歧 求 可 能 是 从 母亲 的 心跳 中 分 离 出 胎儿 的 心跳 
《Cardoso,1998b) 。 

” 金融 市 场 数 据 分 析 。 在 这 种 应 用 中 ,和 癌 基 x 由 一 系列 不 同 的 证 养 市 场 数据 组 成 。 要 
求 抽取 潜在 的 占 优势 的 独立 成 分 (Back and Weigend,1998)。 

在 这 些 应 用 中 ， 襄 源 分 离 问题 可 能 内 为 下 列 原因 更 复杂 : 可 能 存在 未 知 传播 延迟 ， 它 们 
的 环境 强加 于 涛 上 的 扩展 滤波 以 及 观测 向 量 x 难免 混 人 的 噪声 。 这 些 损害 意味 郑 ( 很 不 幸 ) 在 
《10.72) 所 描述 的 瞬时 混合 的 理想 信和 号 在 现实 世界 上 很 少 遇 到 。 但 在 下 面 的 讨论 中 ， 为 了 对 
盲 渡 分 离 门 题 的 基础 理论 有 一 个 清楚 的 认识 我 们 将 忽略 这 些 损害 。 


统计 独立 准则 


由 于 对 育 源 分 离 输 出 向 量 Y 的 分 量 期 望 拓 有 统计 独立 的 性 质 ， 我 们 能 用 什么 度量 去 测 
量 独 立 性 ? 个 明显 的 可 能 性 是 对 组 成 输出 向量 Y 的 任意 两 个 随机 分 量 革 和 七， 利用 它们 
的 豆 信息 必 员 : 瑟 )。 在 型 想 情况 下 ， 沙 式 舌 ; 攻 ) 为 等 时 ， 和 和 靖 统计 独立 。 因 此 这 将 意味 
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着 对 组 成 输出 向 蔓 Y 的 任意 两 个 短 机 变量 站 和 世 ， 最 小 化 它们 的 互信 息 天 科 ; 瑟 )。 这 个 目 
标 等 价 于 服 小 化 下 列 两 个 分 布 的 Kaullback-Leibler 散 度 : ( 1) 概率 密度 丽 数 Aty,W) 被 W 参数 
化 ; 《分 相 应 的 析 因 分 布 定义 为 

户 (7,W) = 下 万 (rW) 《10.74) 
其 中 户 (r ,网 ) 是 于 的 边缘 概率 密度 丽 数 。 实 际 上 (10.74) 可 以 看 作 是 加 在 学 习 算 潜 上 的 约 
东 ， 使 算法 对 放 (7, W) 与 六 (7, 风 ) 分 开 。 我 们 可 以 将 最 大 互信 息 原 则 第 二 种 变 体 陈述 如 
下 (Comon,1994) : 

给 定 一 个 站 X 开 的 向 量 ， 它 表示 六 个 独立 源 信 号 的 一 个 线性 组 合 。 由 神经 系统 将 输入 
向 量 尽 变 拉 为 输出 向 量 三 ， 该 变 搁 应 这 样 进 行 ， 使 得 参 教 化 概率 { 记 为 太 (y,W)) 与 相应 的 
新 因 分 布 六 (y, 杜 ) 之 间 的 Kullhaek-Eeibler 沿 度 关于 未 知 参 数 短 阵 凤 最 小 化 。 

这 里 所 描述 的 用 于 问题 的 Kullback-Eeibler 散 度 在 10.5 节 已 经 考虑 。 我 们 要 和 找 的 公式 由 
式 (10.44) 给 出 。 应 用 该 公式 到 目前 这 种 情况 ， 可 以 将 产 (y,W) 与 六 (7,.W) 的 Kullback- 
Leihler 才 度 表示 为 











Drr(W) -AD Yi (10.7S) 


其 中 风 CI) 是 分 离 器 输出 的 随机 向 量 Y 的 箭 ， 有 (站 ) 是 Y 的 第 守 个 元 素 的 边缘 彤 。Kullback- 
Leibler 散 度 Dr 就 是 以 后 我 们 解决 盲 源 分 离 癌 题 的 目标 函数 。 


微分 炳 h(Y) 的 确定 


让 式 (10.73) 给 出 输出 向 量 并 与 输入 向量 怀 有 关 ， 其 中 罗 是 分 离 矩 阵 。 根 据 式 (10.18)， 
我 们 可 以 把 的 微分 精 表 示 为 
jiCY) = ifWX) = 有 (X)+logldet(W) 1 {10.76) 
其 中 det(W) 是 WW 的 行列 式 。 


边缘 入 (Yi) 的 确定 


为 了 炒 gullback-Leibler 散 度 凡 yz， 我 们 也 需要 知道 边缘 箭 产 ( 正 )。 为 了 确定 产 ( 也 ) 需 要 
知道 % 的 边缘 分 布 ， 这 就 要 求 暴 计 随 机 向 量 圣 除了 i 外 的 所 有 分 量 的 作用 。 对 于 -个 高 维 
的 向 量 Y 来 说 ， 求 站 工 ) 要 比 求 (D 困 难得 多 。 根 据 随机 变量 Y 的 高 阶 矩 我 们 推导 出 
(下 ) 的 一 个 近似 表达 式 来 克服 这 个 困难 。 适 当 截 断 下 面 两 个 丑闻 式 中 的 一 个 可 以 完成 这 个 
任务 : 

*， Edgeworh 级 数 (Comon,1991) 

。 Gram-Charnlier 级 数 (Amari et aj. ,1996) 

在 本 章 中 ， 我 们 将 运用 第 二 种 方法 。 在 诈 释 所 中 给 出 Grnan-Chanlier 级 数 的 说 明 。 在 该 注 
释 中 对 Rdgeworh 级 数 也 做 了 扼要 描述 。 

具体 地 说 ， 参 数 化 的 边缘 概率 密度 蚌 数 户 (7 ,W) 的 Gram-Chanlier 展开 式 表示 为 
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方 (rwW) = alw)[1+ 六 (On (10.77) 
其 中 各 项 的 定义 如 下 : 
1. 乘 数 央 了 am ) 是 “个 具有 零 均 值 和 方 关 为 1 的 归 一 化 的 Gauss 随机 变量 的 概 举 密 虚 
数 ; 即 


az) = 本 


忌 。 
2. 忆 67) 是 Hemmite 多 项 式 。 
3, 展开 系数 ic: 大 = 3,4,…! 出 随机 变量 工 的 累计 量 定义 。 
在 (10.77) 中 各 项 的 白 然 顺序 并 不 是 Gram-Chanier 级 数 中 最 好 的 。 相 反 ， 下 面 括 避 中 列 
出 的 项 应 组 合 在 一 起 (Helstom,1968): 
下 = (0),(3)，(4,6)，(5,7:9)，… 
对 于 言 源 分 离 问 题 ，Gam-Chanier 级 数 中 在 寺 = (4,6) 戴 断 时 ， 对 边缘 令 率 明 数 户 (y ) 的 遂 近 
就 足够 了 ， 于 是 我 们 可 以 写成 
庆 00) = ao 鱼 丰 0 + 宇 末 Op + 


其 中 心 * 是 下 的 第 大 阶 累积 量 。 令 m * 表 示 了 的 儿 阶 矩 ， 定 义 为 
mi 二 [ 


【ke 中 (10.78) 





= 至 [( 站 wa 《10.79) 
申 蕊 是 向 量 X 的 第 ;个 元 素 ， 心 居 权 值 年 陈 到 中 的 (ii, 丰 元 素 。 在 此 之 前 我 们 已 经 假设 
所 有 的 ! 的 均值 为 零 。 相 应 地 ， 我 们 有 方差 中 = mi.:( 即 方差 利 均 方 值 相等 )， 而 且 工 的 志 
阶 累积 量 同 样 如 此 : 














Ra ma (10.80) 
4 3 (10.81) 
Rs me 10m3 -15myms +30m3 (10.82) 


利用 式 (10.78) 的 吉 近 ,六 (7 ) 的 算法 给 出 如 下 : 





《es 局 0 2 Cn) 


ez) = laeetr) + logl + 司 时 让 tr) + 
《10.83) 








为 了 继续 进行 ， 我 们 利用 对 数 展 开 式 
iog( + 六 < 于 (10.84) 


2 
其 中 三 阶 和 三 阶 以 上 的 项 者 被 省 略 『。 
从 前 面 的 讨论 ， 我 们 回忆 计算 贡 的 边缘 精 的 公式 为 (参看 (10,43)) 


站 (五 ) =-| 六 Oongh (rd ， 2 


中 mm 是 源 的 数目 。 利 用 式 (10.78)，(10.83) 和 式 (10.84) 中 的 近似 值 ， 进 行 涉及 ec(7 ) 和 各 种 
Hemmite 多 项 式 救 (7 ) 的 积分 ,我 们 得 到 边缘 炳 的 近似 公式 (Madhuaranth and Haykin, 1998)， 
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- 1 0 

有 天) = 祁 log(2re) - 驰 - 枪 - 30 

3 ， akis + 1065) Cake + l0k3) 
8 区 二 对 





十 (10.85) 





Ge TT 0 全 (ee 10 
二 研 16“ 和 2 


用 式 (10.76) 和 式 (10.85) 代 入 式 (10.75》， 我 们 得 到 目前 问题 的 Kullhack-Leibler 艇 度 ， 
DCW) >- AN) - log1del(W) 1+ 号 log(2re) 





- 补 ( 旦 ce 二 0 3 
I++ 1440 四 


2 
4 
1 


(10.86) 


ace + i0G3) (ke +10c3) 
24 一 24 


66 二 106 有 Ci 十 le 


16 一 432 








其 中 累积 量 都 是 权 值 年 阵 观 的 卜 数 。 
激活 函数 


为 了 计算 {10.86) 中 Kullbaek-ILeibler 散 度 ， 我 们 需要 一 个 计算 观测 向 基 和 的 高 阶 累计 量 
的 自 适 应 过 程 。 问 题 是 我 们 如 何 进行 这 些 计算 ? 记 住 导出 式 (10.86) 近 似 公式 的 方法 。 它 的 
导出 是 通过 Gram-Charlier 级 数 展开 得 到 的 ， 而 卫 假 设 六 基 零 均值 和 方差 为 { 的 随机 变量 。 
零 均 值 的 假设 是 因为 以 前 我 们 假定 源 信 号 为 零 均 值 的 。 至 于 方差 为 1 的 假设 ， 要 用 到 以 下 两 
种 方法 中 的 - -种 进行 处 理 : 

1. 约 素 方法 。 在 这 种 方法 中 ， 单 位 方 关 的 假设 用 于 计算 对 所 有 ; 的 高 阶 累积 量 ks ，es 
和 ee(Amari,1996)。 不 幸 的 是 我 们 不 能 保证 在 计算 过 程 中 忒 的 方差 { 即 史 ) 是 常数 ， 不 要 说 
是 1 了。 从 式 (10.81) 和 (10.82) 的 定义 中 注意 cs 和 ks 的 估计 依赖 于 < = mo 假设 呈 = 1， 
则 导出 xs: 和 xs 的 估计 有 极 大 偏差 ， 这 将 引起 它们 和 ki.: 估 计 之 间 的 错误 关系 。 

2. 无 约束 方法 。 在 这 种 代替 方法 中 ， 方 益 叶 被 看 作 是 一 个 未 知 的 时 变 参 数 ， 这 也 是 与 
实际 情况 相符 的 ( Madhuranath and Haykin,i998)。 方 差 o# 与 1 的 偏离 可 以 看 作 随 机 变量 贡 的 
一 个 比例 变化 。 重 要 的 是 ， 导 出 的 k., 和 xs 的 估计 考虑 到 了 c 是 捕 时 间 变 换 的 。 在 式 
《10.86) 中 的 所 有 3 个 高 阶 崇 积 量 的 估计 还 维持 正确 的 关系 。 

在 Madhuranath and Haykin(1998) 所 作 的 言 源 分 离 实验 的 研究 报告 表明 ， 无 约束 方法 产生 
的 结果 比 约束 方法 的 要 好 。 在 后 面 的 评论 中 我 们 使 用 无 约束 方法 。 

为 了 找到 计算 三 的 一 个 学 习 算 法 ,我 们 要 求 式 (10.86) 对 到 的 微分 ， 从 而 对 算法 形成 
一 个 合适 的 激活 函数 。 

令 4 表示 答 阵 允 的 起 余子 式 。 对 det(W) 按 ;行进 行 拉 普 拉 斯 展开 ， 可 以 写成 (Wylie 
and Rarrett, 1982) 





















































det(W) = ad ， = 1,2, :下 《10.87) 
帮 =] 


中 


| 
[ 
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其 中 wu 是 利 阵 妈 的 Ci, 区) 匹 素 。 因 此 det( 殉 ) 对 wu 求 微分 ， 得 到 


1 .9 4 WwWrr 
5lak(det(W)) = TD 机 del( 现 ) = He) = (W-7)。 (10.88) 


其 中 驳 - 7 是 转 置 矩阵 现 ” 的 道 。 在 式 (10.86) 中 其 他 项 (依赖 于 下 ) 对 xx 求 偏 微分 得 到 (参见 
式 (10.80) 盏 式 (10.82)) 
































3 





if 

5 = 3 大 [ 呈 筷 

- 

了 = 48[ 天 了] - 12mz 且 和 卫 ] 
0 





了 (es + tiOCa3) = 6 瑟 [ 玖 瑟 ] -30msE[yo] 


一 60m. 歼 -下 村] + 180m42 五 [ 了] 
为 了 推导 一 个 自 适 应 算法 ， 常 用 的 方法 是 将 期 望 用 它们 的 瞬时 值 代 荐 。 因 此 在 这 三 个 等 式 中 
届 如 上 的 替换 ， 我 们 得 到 下 面 的 近似 结果 ; 

















和 3 《10.89) 
避 
也 8 (10.90) 
也 (es + 106) = 967 《10.91) 
在 式 (10.86) 的 表达 式 中 对 wx 的 导数 用 式 (10.88) 至 式 (10.91) 蔡 代 ， 得 到 
元 -Dr(W) = (WT7)。 + 8()xs (10.9%2) 
其 中 的 wy:) 是 学 习 算法 的 .一 个 非 单调 激活 函数 ， 定 义 为 (Madhuranath and Haykin, 1998) 
(rz) = 二 只 + 这 + 交 站 守卫 赔 + 8 - 字 交 (10.99) 














图 10.11 而 出 97) 对 zi-L<w%<1l) 的 图 形 。 图 中 包括 分 离 器 输出 ”* 的 取 值 范围 ， 这 也 是 
学 习 算 法 通常 限制 的 范围 。 值 得 注意 的 是 激活 因数 的 斜率 在 ( - 0.734，0.734) 之 间 为 正 的 ; 
如 同 本 节 后 面 讨论 的 那样 这 是 使 算法 稳定 所 必需 的 。 

ICA 学 习 算法 


学 习 算 法 的 目的 就 是 最 小 化 概率 密度 函数 Y 和 析 因 分 布 路 ，i= 1，2，…，mm 之 癌 的 
Kulibhack-Leibler 散 度 。 这 个 最 小 化 可 以 运用 梯度 下 降 法 实现 ， 此 时 权 值 如 的 调整 定义 为 



























































昊 
Axox = 一 15 六 7 





=U(W Da -ea (10.94) 
其 中 了 是 学 习 率 参数 。 
将 (10.94) 扩 展 到 分 离 器 的 整个 权 值 矩阵 罗 ， 我 们 可 以 把 适用 于 W 调整 的 AW 表示 为 
AW = 太一 9 了 xD) (10.9%) 
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y 
图 1011 式 (10. 归 ) 的 数 活 函数 py) 
其 中 x 是 中 xl 观测 向 量 x 的 转 置 ， 并 且 


(7) = [py 6(y) (yn)] 开 《10.9%6) 
在 式 (10.%5) 给 出 的 AW 的 公式 中 ,注意 到 
Jr -= xrWr 
我 们 可 以 将 式 (10.95) 改 写成 等 价 形式 
AW = 放 I- JWTW = 症 LI-9(7)7W (10.97) 
其 中 工 是 单位 矩阵 。 改 变 分 离 矩 阵 的 更 新 公式 表达 为 
W(a+lD = 到 (n+ 只 mLI- YYCz))77 mW Cn) (10.98) 
其 中 人 参数 都 是 以 它们 的 时 变形 式 给 出 。 





等 变化 性 质 


言 源 分 离 算 法 的 目的 是 更 新 分 离 矩 阵 网 (=a)， 以 使 输出 向 量 
yn) = 到 (nm)x(n) = 风 (n)Aun(n) 
在 统计 意义 下 能 够 尽 可 能 与 初始 源 信号 接近 。 有 具体 地 ， 假 设 一 个 全 局 系统 表征 抢 阵 CUn) 是 
混 会 矩阵 A 和 分 离 抵 阵 妈 (m) 的 染 积 : 
Cn) = 印 (m)A (10.99) 
理想 情况 下 ， 这 个 全 局 系统 应 该 满足 两 个 条 件 : 
1. 负责 调整 C(m ) 的 算法 收 伍 到 一 个 等 于 置换 矩阵 的 最 优 值 。 
2. 算法 本 身 可 以 写成 
Cn+l) = Cn)+ 共 pz)G(CCn)uCn))CCn) (10.100) 
其 中 GCCCn)ata)) 是 CCna)ua) 的 向 量 值 函数 。 算 法 的 性 能 完全 由 系统 矩阵 C(n ) 决 定 ， 而 
不 是 由 混合 矩阵 A 和 分 离 矩 阵 Wan) 单 独 决定 。 这 样 的 自 适应 性 系统 就 称 为 等 变化 的 
《Cardoso and Lahelq ,1996) 。 
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式 (到 ,9%8) 的 自 适应 算法 当然 能 够 近似 满足 第 一 个 条 件 : 但 是 ， 目 如 它 所 表 浇 的， 第 二 
个 条 件 不 能 满足 。 为 了 说 明 这 个 问题 ， 我 们 可 以 将 式 (10.98) 重 守成 等 价 形式 
Ca+l = Ca)t+WG(CCaCn) 且 下) 和 《10.101) 





其 中 
GCCCa)uCn)) = 工 9OCCn)an)CCaJugay)7 《10.102) 
式 (10.98) 的 算法 不 能 满足 式 (10.100) 所 描述 的 等 变化 条 件 ， 因 为 向 基 值 机 数 G(C(n)afn)) 
后 乘 以 W- (an)A， 在 - 般 的 条 件 下 其 值 不 等 于 C(n)。 我 们 证 以 在 他 们 之 癌 播 入 一 个 矩阵 
到 (mW(n) 来 矫正 。 项 WW7WW 由 多 和 其 转 半 组 成 ， 总 是 正定 的 。 这 也 是 为 什么 乘 以 W7W 
后 不 改变 学 习 算法 的 最 小 值 符号 的 产 因 。 
重要 的 问题 是 : 为 了 达到 等 变化 条 件 所 做 的 调整 含义 是 什么 ”问题 的 答案 就 在 于 在 参数 
空间 中 梯度 下 降 是 如 何 形成 的 。 理 想 情 况 下 ， 我 们 应 该 用 目标 函数 太 ,( 允 ) 的 自然 接 度 :各 ， 
利用 通常 梯度 VDPrj 定 义 为 





VDii(RW) = (VD COW)JWTW (10.103) 
通常 梯度 V 六 ,7 由 (10.92) 定 义 。 在 隐 含 的 意义 下 ,梯度 VD7(CW) 仅 当 参 数 空间 = | 图 
采用 正 交 坐标 系 的 欧 几 里 德 空间 时 为 最 优 下降 方 向 。 在 神经 网 络 的 典型 情况 中 ， 参 数 空间 尾 
是 在 非 正 交 坐 标 系 中 的 。 白 然 樟 度 V 吧 ,上 (多 ) 在 后 一 种 情况 下 会 产生 最 束 下 降 ， 所 以 在 梅 成 
言 源 分 离 问 题 的 随机 算法 时 采用 它 替 代 通 常 梯度 。 为 了 使 自然 梯度 空间 可 定义 ， 必 须 满足 两 
个 条 件 : 
1. 参数 空间 W 是 黎 曼 空间 “ 。 黎 曼 结 构 是 .个 具有 正定 度量 WW 的 微分 流 形 。 
2. 忽 阵 W 是 非 奇 哎 的 ( 即 可 逆 的 )。 
当前 的 问题 对 两 个 条 件 部 满足 。 
以 这 种 方式 改写 式 (10.98) 的 算法 ， 我 们 可 以 与 为 
Win+iD= Way)+MKnI-9(7Ca))y COW(n)wWrCn))W TOn) 
= WOn) +Rn[I- (7(2))7 0n)]W(n) (10.104) 
这 导 到 育 源 分 离 上 共有 等 方差 (equivariance) 人 性质。 图 10-12 画 出 式 (10.104) 的 信号 流 图 。 
为 了 使 式 (10.104) 所 描述 的 自 适 应 算法 对 图 10-9 所 描述 的 育 源 分 离 问 题 得 到 正确 结果 ， 
输出 癌 量 Y 的 所 有 分 量 必须 满足 下 列 琴 个 要 求 : 
。 用 于 计算 非 线 性 p(' ) 的 Gram-Chaier 展开 要 包括 足够 多 的 项 以 便 对 边缘 精 由 工 ) 产 
生 尽 可 能 好 的 通 近 ; 例如 ， 式 (10.%) 的 激活 函数 可 以 满足 这 个 要 求 。 
，*， 学 习 率 1 应 足够 的 小 ， 使 得 % 的 崇 积 量 估计 可 靠 。 


稳定 性 分 析 


不 对 式 (10.104) 所 描述 的 自 适应 算法 进行 稳定 性 分 析 ， 膏 源 分 离间 题 的 讨论 是 不 完全 
的 。 在 Amari et al. (1997) ， 对 任何 激活 画 数 f( ,) 给 出 这 个 算法 的 一 般 性 的 稳定 性 分 析 。 在 算 
法 渐进 收敛 于 一 个 希望 的 平衡 点 的 意义 下 进行 分 析 ， 在 希望 的 平衡 点 盲 源 的 成 功 分 离 是 有 保 
证 的 。 

式 (10.104) 是 基于 自然 梯度 的 育 源 分 离 算法 的 离散 时 间 描述 。 为 了 稳定 性 分 析 ， 算 法 改 
为 连续 时 间 的 形 疏 



































疹 和 下 殉 到 379 








WO We+D 


sm) 








网 10-12 式 (10.104) 描 述 的 盲 源 分 离 学 习 算法 的 信和 号 流 图 


离 ( 间 = DIEI- (CO)77CD]JW(D (10.105) 
其 中 表示 时 间 ， 穷 (7 = 3W(i)1arf。 对 所 有 , 学习 率 东 旨 总 是 正 的 。 令 
= 本 [人 ] (10.106) 
了 [32C) 
玉 = 下 [2 《10.107) 
4 = 2] G0.108) 


从 而 ， 根 据 Amari ea al,(1997)， 对 任意 的 激活 函数 gf( ')， 分 离 解 是 式 (10.104) 的 自 适 应 性 算 
法 的 稳定 平衡 点 的 充分 必要 双 件 ， 是 对 所 有 的 (5 ) ,7 ， 有 


3+1>0 〈10.109) 
下 > 0 《10.110) 
和 ao (10.111) 


政委 性 因素 
假设 满足 了 从 式 (10.109) 到 式 (10.111) 的 稳定 性 归 求 我们 能 够 对 基于 式 (10.9%3) 的 激活 
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函数 的 式 (10.104) 的 学 习 算 法 的 收 全 行为 说 些 什 么 ”和 根据 Madhuranath and Haykin(1998) 所 作 
的 实验 的 研究 报告 ， 粗 略 地 讲 ， 我 们 可 以 说 收 敏 过 程 丰 两 个 阶段 : 
， 阶段 1 ， 经 过 一 段 时 间 的 调整 乒 ， 分 离 器 输出 的 随机 变量 了 的 方差 m (za) 能 够 达到 
一 个 由 当 稳 定 的 值 。 在 这 个 阶段 ， 累 积 量 “.，k. ,和 5 基本 保持 稳定 。 
， 阶段 卫 ， 经 过 一 段 时 间 调整 后 累积 量 5, ，&.: 和 ks 达到 一 个 相当 的 稳定 值 。 在 这 一 
点 上 ， 我 们 可 以 说 算法 已 经 收敛 。 
内 此 看 起 来 分 离 器 输出 的 方 闪 和 高 阶 累 积 量 的 估计 值 提供 几 于 研究 式 (10.104) 的 学 习 算 
法 收 往 行 为 的 合理 程序 的 基础 。 注 意 这 样 一 点 是 有 趣 的 ， 即 只 在 阶段 由 ， 算 法 才 与 Cmam- 
Chartier 展开 式 一 贷 。 


10.12 计算 机 实验 
很 设 图 10-9 所 描述 的 系统 包括 以 下 二 个 独立 的 源 ， 
(na) =0.1lsin(400n )cos(30m) 
za(n) =0.01sgn(sin(500n + 9cos(40m))) 
mn) = 了 噬 声 均匀 分 布 在 ! -1，1] 的 区 间 内 
混合 矩阵 A 为 
0.56 0.79 -0.37 
A = | -oz 0.65 oa 


0.47 0.32 一 0.48: 




















信和 号 源 的 波形 在 图 10- 13 左边 显示 。 
对 于 分 离 器 ， 我 们 用 式 (10.104) 描 述 更 新 规则 的 批 处 理 形 式 ; 参见 习题 10.14。 选 抒 批 
处 理 的 基本 原因 是 提高 收敛 性 。 利 用 以 下 条 件 实现 算法 : 
， 初始 化 : 为 了 对 算法 初始 化 ， 分 离 矩阵 全 的 权 值 用 一 个 在 [0.0,0.05] 区 间 内 均匀 分 
布 的 随机 数 产生 器 选取 。 
学 习 率 : 学 习 率 固定 在 3= 0.1。 
信和 号 持续 时 间 : 在 混合 器 的 输出 端 产生 的 时 间 序 列 的 采样 周期 为 10 秒 ， 包 含 N= 
65 000 个 样本 组 成 。 
网 10-13 的 右边 画 出 经 过 300 次 迭代 后 分 离 器 的 输出 端 产生 的 信和 号 波形 。 除 了 术 知 源 输 
出 的 比 询 和 置换 ， 图 10-13 中 左边 的 波形 与 右边 的 波形 没有 明明 的 差别 。 得 到 这 里 结果 算法 
初始 化 权 第 阵 是 























0.0109 0.0340 0.0260 
W(9) = ja 0.0467 son 
0.0339 0.0192 0.0017 
算法 收敛 到 最 后 权 值 矩阵 
0.2222 0.0294 一 0.6213 
本 = |- 10.1932 -9.8141 -| 
4.1191 ~ 1.7879 -6.3765 
相应 的 矩阵 积 WA 的 值 为 
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图 10-13 左边 的 波形 : 原来 的 源 信 号 “右边 的 波形 : 分 离 后 的 源 信号 


-0.0032 -~ 0.0041 “0.2413 

WA = | -0.0010 - 17.5441 -man| 
2.5636 0.0515 -0.0009 

新 调整 矩阵 积 的 项 使 得 输出 信号 与 输 人 信号 的 顺序 相同 ， 我 们 可 写 为 


2.5636 0.0515 ”0.0009 
WA = 





县 





- 0.0010 - 17.5441 -0.0002 
-0.0032 -0.0041 0.2413 
生 阵 积 的 第 一 、 二 、 三 列 分 别 对 应 信号 的 幅度 调制 信号 、 频 率 调制 截止 (clipped) 信 号 和 吧 
声 。WA 中 的 对 角 元 素 定义 图 10-13 中 右边 输出 波形 与 图 10-13 左边 初始 信 源 波形 之 间 的 比 
例 系 数 。 
为 了 定量 评价 分 离 器 的 性 能 ， 我 们 可 以 定义 一 个 侠 局 拒绝 指标 (Amatri et 马 , ,1996 ) : 
aa 忆 1 pz 1 站 忆 1 
= 人 由 二 路 四 二 -1 
其 中 P= jp | = WA。 人 性 能 指标 4 是 矩阵 P 对 角 化 的 量度 。 如 果 卫 完全 对 角 化 ， 则 = 0。 
对 于 那些 元 素 不 是 集中 在 主 对 角 线 的 矩 隆 P， 其 性 能 指数 将 很 高 。 
在 图 10-13 中 显示 的 恋 形 ， 和 4 = 0.0606。 


10.13 最 大 似 然 估计 
前 面 一 节 所 讨论 的 狼 立 分 量 分 析 的 方法 ( 即 最 大 互信 息 的 第 三 种 变 体 ) 只 是 诸多 育 源 分 离 
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方法 中 的 一 种 。 介 在 信息 论 背 有 景 中 ， 也 仅 有 其 他 两 种 方法 能 够 以 无 监督 方式 解决 源 分 离 问 
题 : 最 大 伺 然 法 和 最 大 粮 法 。 在 这 一 节 中 我 们 讨论 最 大 似 然 法 。 

最 大 似 然 法 是 一 个 统计 估计 的 常用 过 程 ， 具 有 -- 些 良好 的 人 性质 ; 人 参见 第 7 章 注释 5 。 在 
这 个 过 程 中 ， 我 们 首先 建立 对 数 似 然 画 数 ， 然 后 根据 考虑 的 概率 模型 的 参数 向 量 对 它 进 行 最 
优化 。 从 第 7 章 的 讨论 中 ， 我 们 知道 似 然 函数 是 一 个 给 定 模型 中 的 数据 集 的 概率 密度 函数 ， 
旧 是 只 是 作为 模型 未 知 参 数 的 一 个 函数 。 根 据 图 10-9， 令 万 (. ) 表 示 随 机 源 向 量 T 的 概率 密 
度 明 数 。 孝 么 在 混合 器 输出 端的 观测 向 量 买 = AU 的 概率 崔 度 函数 定义 为 {Papoulis,1984) 
(ce,A) = 1detA) 上访 (AD) 《10.112) 
其 中 det(AA) 是 混合 矩阵 A 的 行列 式 。 令 9 = |x 忆 , 表 示 随 机 向 量 和 的 w 次 独立 实现 。 于 是 
可 以 拇 成 





























(了 ,A) = 直 Aee 《10.113) 
灰 = 一 

我 们 发 现 用 归 一 化 ( 除 以 样本 数目 W) 后 的 对 数 似 然 机 数 更 方便 ， 表示 为 

ap,A) =- 方 lerx(xeA) 








= 二 2ogekCAa) -logldetA 1 
令 了 =A-x 为 分 座 内 输出 端的 随机 向 量 Y 的 一 个 实现 ， 这 样 可 写成 
和 gxGTaA) = 二 官 loeu(y) -log ldet(A) 1 {10.114) 


令 4 = 胃 且 及 (7 网 ) 表 示 以 狂 为 参数 的 Y 的 概率 密度 函数 。 注 意 式 (10.114) 中 的 求 和 是 
logA(y) 的 样本 平均 值 。 从 大 数 定律 发 现 ， 当 w 趋 于 无 穷 ， 


工地 
ECOW) = jim 斑 它 Igfoy) + log 1 det(W) 1 








= 吾 [log 所 (ge)] + log 1 det(W) 1 《10-115) 
= 三 Aerwoghtnay + logldet(W) 1 


以 概率 1 成 立 ， 其 中 第 二 等 式 是 关于 立 求 期 望 。 量 W) 的 值 是 希望 的 对 数 似 然 昂 数 。 利 
写法 























AD = (7 人 je 


我 们 可 以 将 ECW) 表 示 为 等 价 形式 








iD= 六 PorwneES)o 人 AgmbanrGwmayyogidatw 1 
=- 太 -ACE W)+IogldetW)1 (10.116) 


其 中 AKY,W) 是 由 WW 参数 化 的 随机 向 量 了 微分 精 ， 而 碎 内 是 廊 (7, 妈 ) 和 访 (9) 之 间 的 


Konllback-Ieibler 散 度 。 将 式 (10.76) 代 人 式 (10.116)， 可 将 对 数 似 然 函 数 上 (W) 简 化 成 
【Cardoso ,1998a ) 





KW) = -有 一 (X) 《10.117)》 
其 中 代 X) 是 分 离 器 输入 端的 随机 向 量 X 的 微分 灶 。 在 式 (10.117) 中 ， 惟 一 依赖 于 分 离 器 的 
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权 值 向 量 WW 的 是 Kollbaek-Leibler 散 度 Da 。 因此 从 式 (10.117) 可 以 得 到 如 下 结论 : 最 大 化 
对 数 似 然 函 数 就 从 于 最 小 化 Kullback-Teihler 散 度 区 关 ， 即 使 分 商 器 的 输出 Y 的 概率 分 布 与 
初始 源 向 量 U 的 概率 分 布匹 配 。 
最 大 似 然 估 计 与 独立 分 量 分 析 之 间 的 关系 

对 目前 问题 应 用 式 (10.45) 所 描述 的 pyihagoras 分 解 ， 可 以 将 Kullback-Leibler 散 度 已 交 
表示 为 色 大 似 然 











2 (10.118) 


上 式 右 边 的 第 一 个 Kolhack-Teibler 散 度 yir, 是 表征 独立 分 量 分 析 方 法 的 结构 失 配 的 度量 ， 
第 二 个 Kullhack-Leibler 散 庆 六 ,|A 是 描述 初始 源 向 量 U 的 分 布 和 分 离 器 条 出 Y 的 边缘 分 布 之 
间 的 边缘 失 配 的 度量 。 因 此 可 以 将 用 于 最 大 似 然 的 全 局 分 布匹 配 稚 则 表达 如 下 (Aman,1997; 


Cardoso, 1998a) : 
总 失 配 = 结构 失 配 + 边 综 失 配 (10.119) 


“结构 失 配 ?是 指 一 组 独立 变量 的 一 个 分 布 的 结构 ， 而 “边缘 失 配 "是 指 各 边缘 分 布 之 问 的 


失 配 。 
在 理想 情况 下 ，W =A-:!( 即 完全 盲 源 分 离 ) 所 有 的 结构 失 配 和 边缘 失 瑟 都 为 0。 在 这 种 
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情况 下 ， 最 大 似 然 与 独立 分 量 分 析 产 生 完全 相同 的 结果 ， 埋 想 情 况 下 的 两 者 的 关系 描绘 在 图 
10-14 中 ( Cardoso,1996; Amari,1997) 。 在 这 个 图 中 ，9 是 分 离 器 输出 端 随机 向 量 Y 的 所 有 概率 
概率 分 布 hy) 的 全 集 


真实 源 分 布 


所 有 的 独立 分 布 





耳 154 用 于 育 妇 分 离 的 最 大 介 然 估计 与 下 立 分 量 分 析 之 问 的 关系 下 意图 
最 大 做 然 景 小 化 Zi ， 而 独立 分 量 分 析 最 小 化 pw 广 
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密度 的 函数 (8) 的 集合 ; 3 是 所 有 独立 的 概率 分 布 的 集合 ， 也 就 是 那些 乘积 形式 。? 和 8 部 
是 无 穷 维 的 。 集 钨 = 5 (Cy,WW)i 是 在 分 离 器 的 输出 端 测 量 得 到 的 概率 分 布 的 有 限 集 。 钨 是 m 
维 的 ， 其 中 玫 考 示 王 的 维 数 ， 权 值 向 量 多 是 其 中 的 一 个 坐标 系 。 从 图 10-14 中 ,可 以 清楚 
看 出 下 六 和 Bi 在 多 = 和 时间 时 到 得 最 小 值 。 有 趣 的 是 集合 9 和 5 在 交点 处 正 交 ， 该 交 
点 由 真实 概率 密度 函数 , 访 () 所 定义 。 

对 于 -个 基于 最 大 似 然 原则 的 育 源 分 离 问题 算法 必须 包括 对 固有 的 未 知 源 分 布 的 估计 ， 
而 这 些 源 分 布道 常 就 是 未 知 的 。 这 个 估计 的 参数 正如 调节 分 离 公 值 失 阵 W 一 样 是 可 以 调节 
的 。 换 名 话说， 我 们 应 该 进行 混合 矩阵 和 源 分 布 (一 些 特征 的 联合 估计 (Cardoso, 1997， 
1998a) ， 这 种 联合 估计 的 一 种 巧妙 和 成 熟 的 方法 已 经 在 Phan et al,(1992.1997) 中 给 出 。 


10.14 最 大 炉 方法 


用 最 大 精 方 法 (maximum entmpy method) 解 决 盲 源 分 离 问 题 是 由 Bell and Sejnowski(1995) 提 
出 的 。 图 10-15 画 出 基于 这 种 方法 的 系统 方 从 图 。 与 以 前 一 样 ， 分 离 器 对 观察 向 基 和 进行 操 
作 ， 产 生 箱 出 Y= WX， 它 是 初始 源 疝 量 U 的 估计 。 向 重 Y 经 过 每 个 分 量 为 非 线性 的 变换 G 
() 变 成 也 ， 且 G(') 是 一 个 单调 可 逆 谓 数 。 因 此 ， 与 了 不 同 ， 对 一 个 任意 大 的 分 离 器 Z 的 微 
分 炳 保证 都 是 有 界 的 。 对 于 给 定 的 非 线 性 G(')， 最 大 方 法 通过 对 太 求 (Z) 的 最 大 值 ， 
得 到 初始 源 向 量 吕 的 一 个 估 订 。 根 据 在 例 10.6 中 导出 的 式 (10.55) ， 我 们 看 到 最 大 丧 方 法 与 
最 大 互信 息 原 则 是 紧密 相关 的 亚 : 。 

非 线性 G 是 一 个 对 角 了 映像 ， 表 达 为 




























































































力 SC7) 
6 二 -| ao) |- (10.120) 
Jm So 人 yn) 
我 们 也 可 以 写成 
Z -= G(Y) = GOWAUD) 《10.121) 
由 于 非 线性 G(') 是 可 逆 的 ， 可 以 将 初始 源 向 星 U 利用 分 离 器 输出 向 量 乙 表示 成 
= ATW-G-(Z) = (Z) (10.122》 
中 G- :是 一 个 非 线 性 的 逆 : 
aa ET 人 (2) 入 
-| 2 BE (5) 攻 2 
G :| :| 一 ; =| : (10.123》 
了 EMCan) 加 
输出 向 量 忆 的 概率 密度 函数 利用 源 向 量 U 的 概率 密度 函数 定义 为 (Papoulis,1984) 
| 
(2 = Ta | 《0.224) 





其 中 det(J(u)) 是 Jacobi 短 阵 Je@) 的 行列 式 ， 天 9 的 闻 元 素 定义 如 下 ; 
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网 10-15 ”用 于 言 源 分 离 的 最 大 炉 方 法 方 框图 
向 量 u，x，y 了 和 = 分别 是 随机 向 基 U，X, Y 和 也 的 值 


9 
上 几 = 于 


所 以 非 线性 G 的 输出 端的 随机 向 量 Z 的 灶 为 

国 _ 厂 () 

AZ = - ELioaj(9] = - [el AT 

=- Di aan 在 u = 亚 (z) 处 求 值 (10.126) 
因此 可 以 看 出 求 &(Z) 的 最 大 值 等 价 于 求 万 (四 9 和 由 1det(Ju))1 定 义 的 的 概率 密度 函数 之 
间 的 Kullbhack-Leibler 散 度 的 最 大 值 。 

假设 对 所 有 的 ;， 随 机 变量 Zi( 即 世 的 第 守 个 元 素 ) 在 0,1 上 均 色 分布。 根据 例 10.1， 

那么 精 4(Z) 为 0。 相 应 地 ， 从 式 (10.126) 得 到 


(10.125) 





硬 (a) =1 detJu) 1 《10.127) 
在 理想 情况 双 =A 时 ， 这 种 关系 化 简 为 
万 (o) = 入 | 到 也 有 的 4 (10.128)》 


相反 ， 如 果 式 (10.128) 满 足 ， 则 最 大 化 六 (Z) 得 到 多 =A-:， 从 谭 盲 源 分 离 问 题 得 到 解决 。 
我 们 可 以 对 用 于 盲 源 分 离 的 最 大 方 法 得 到 的 结果 概述 如 下 (Bell and Sejnowski,1995) : 


如 图 10.15 所 示 ， 令 在 分 离 器 输出 的 非 线性 由 初始 源 分 市 定义 为 
0 = 大人 ed = 2 《10.129》 
最 大 化 在 非 线性 G 输出 端的 随机 向 量 忆 的 病 靠 价 了 于 多 = 及 -!， 这 将 产生 完全 的 并 源 分 离 。 
对 所 有 的 刘 ， 在 随机 变量 2; 是 区 间 [0,1] 上 均匀 分 布 的 条 件 下 ， 最 大 录 方 法 和 最 大 做 然 


方法 对 盲 源 分 离 问题 是 等 价 的 (Cardoso, 1997 )。 为 了 证 明 这 个 关系 ,我们 首先 利用 微分 的 链 
式 规则 将 式 (10.125) 改 写 为 等 价 形式 


maz 7 3 过 az 
3 10.130 
六 =- 症 天 了 了 《 》 
Jacobi 矩阵 了 因此 可 以 表达 为 
本 = DWA 
其 中 了 D 是 对 角 拢 阵 
， 135 9z Dam 
D = diae[ 3 , 泣 …, 治 ] 


所 以 
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9 五 


1 det(JJ 1= 1detKWA) 1 下 3 


对 于 由 权 值 矩阵 W 和 非 线性 函数 G 参数 化 的 柱 率 密度 面 数 /(， 根据 式 (10.131)， 它 的 
估计 可 以 形式 地 表示 为 (Rom and Barm,1996) 


ta 竖 ,G) =1det(WA) | 下 


从 而 在 这 种 条 件 下 ， 可 以 看 出 对 于 育 源 分 离 最 大 化 炳 从 于 最 大 人 要 内 名 log 让 
(altW,G):。 也 即 是 说 ， 最 大 彤 方法 与 最 大 似 然 方法 是 等 价 的 。 


言 源 分 离 的 学 习 算法 


考虑 到 (10.126) 的 第 二 个 等 式 ， 注 意 到 由 于 源 (信号 ) 的 分 布 适 常 是 固定 的 ， 最 大 化 精 大 
(2 要 求 对 加 求 分 母 项 gldet(J(m))1 的 期 望 的 最 人 值 。 我 们 的 日 标 是 求 -个 自 适 应 算法 ， 


《10.131) 


《10.132) 

















因此 可 以 考虑 瞬时 目标 函数 
= log1det(J) | 《10.133) 
将 式 (10.131) 代 人 式 (10.133) 得 到 
= log | det(A) 1+ log 1det(W) 1+ IE 《10.134) 
气 ， 
所 以 对 分 离 器 的 权 值 矩阵 W 求 下 的 微分 得 到 (见习 题 10.16) 
忆 
过 -w+ 志 呀 到) (10.135) 


为 了 进一步 处 理 这 个 公式 ， 必 须 说 明 由 分 离 器 馈 人 的 非 线 性 G(.)。 这 里 可 以 使 用 的 非 线 性 
的 简单 形式 为 logistie 顺 数 


妊 = 有 ( 和 ) 一 了 12， 《10.136) 
图 10-16 两 出 该 函数 和 其 反 函 数 的 网 像 。 这 个 图 像 表 明 logistie 函数 满足 盲 源 分 离 的 单调 性 和 
可 逆 性 的 基本 要 求 。 将 式 (10.136) 代 和信 式 (10.135) 得 到 
强 =wr +(1- 2z)x7 
其 中 是 援 收 信号 ，z 是 分 离 器 的 输出 向 量 经 非 线性 赤 化 后 的 葵 出 。1 是 分 量 都 为 ! 的 向 基 。 
学 习 算法 的 目的 就 是 最 大 化 炳 #(Z)。 因 此 采用 最 速 下 降 法 ， 应 用 于 权 值 年 阵 W 的 变化 
[表示 为 (Bell and Sejnowski,1995) 


上 W 





也 


= 1 沁 = 只 W7 +(L-2z)x) (10.137) 
其 中 站 是 学 习 率 参数 。 与 独立 分 量 分 析 相 类 似 ， 可 以 利用 自然 梯度 消除 对 转 置 权 值 定 阵 W7 
求 着 的 要 求 ， 这 等 价 于 对 (10.137) 乘 以 抢 阵 积 W"W。 这 个 最 优 调整 产生 权 值 变化 所 希望 的 
公式 为 

















AW= MTWT +L-2z)x7)WTW = TI+(1L- 2z)0Ws)7W 
= MI+(L- 2z)77)W (10.138) 
其 中 了 是 分 离 器 的 输出 。 所 以 计算 权 值 窍 阵 W 的 学 习 算 涩 可 以 表示 为 
WOn+rD = Wan)+RI+(L-2z(n))y7Cn)W(a) 《10.139) 
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0 01 了 2 0D3 04 人 0D6 07 D8 全 9 了】 
时 


甘 


图 ]016 


aagisic 冰 数 ，a =g(7)= [上 blogstie 两 数 的 敢 : =& -Ca) 


二 


算法 的 初 值 妈 (0) 选 取 一 组 均匀 分 布 的 小 数值 。 

理 沦 考虑 和 实验 观测 好 表明 ， 式 (10.139) 的 学 习 算法 局 限于 分 离 超 Gauss 分 布 的 源 ( Be 
and Sejnowski,1995); 超 Gauss 分 布 的 定义 参见 注释 ! 刁 。 这 个 局 眼 是 在 图 10- 15 中 系统 后 端的 
非 线 性 采用 了 logistic 函数 的 直接 结果 。 特 别 ，logistic 函数 对 源 分 布 加 上 先 验 知识 ， 即 一 个 超 
Gauss 形 。 但 是 ， 最 大 业 方 法 限制 使 用 logistice 函数 和 最 大 做 然 方法 限制 某 些 固定 先 验 知识 并 
没有 特别 不 同 之 处 。 通 过 修改 式 410.138) 的 学 习 算 法 使 之 提供 固有 信 源 分 布 和 混合 矩阵 的 估 
计 ， 可 以 将 最 大 彤 法 应 用 到 更 广泛 的 源 分 布 范围 。 这 个 归 求 同 前 一 节 讨论 的 最 大 似 然 法 有 相 
似 的 性 质 。 

10.15 小 结 和 讨论 

在 本 章 中 ， 我 们 根据 Shannon 信息 论 模型 ， 建 立 扎 信息 作为 自 组 织 的 基本 统计 于 具 。 由 
于 输 人 过 程 与 输出 对 程 之 间 的 互信 息 有 一 些 独 特 的 性 质 ， 所 以 可 以 将 其 作为 自 组 织 学 习 的 最 
优化 的 目标 函数 。 实 际 上 ， 一些 重要 的 自 组 织 原则 已 经 出 现在 本 章 的 讨论 中 : 

。 最 大 互信 息 原则 ， 归 功 于 Linsker(1988)。 这 个 原则 的 基本 形式 非常 适合 建立 自 组 织 【33 


模型 和 特征 映射 。 
* 最 大 互信 息 的 第 一 种 变 体 ， 归 功 于 Beeker and Hinton(1992) ， 非 常 送 合 图 像 处 理 ， 目 
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标 是 发 现 带 噪声 传 感 的 笨 人 在 时 间 和 空间 上 表 了 现 的 相 了 性 。 

。 最 大 互信 息 的 第 二 种 变 体 ， 归 功 于 Ukrainec anqd Haykinf1992)， 在 对 偶 和 网 像 处 理 得 到 
应 用 ， 对 不 同 的 两 蛋 环 境 图 像 的 相应 区 域 中 ， 目 标 是 求 出 最 大 的 空间 差异 。 

*。 最 大 互信 息 的 第 三 种 变形 ， 用 于 独立 分 量 分 析 ， 归 幼 于 Comon(1994)， 虽 然 它 的 基 
础 可 以 追溯 到 Banow 假设 (Barlow,1985,1989)。 但 是 ， 在 Comon(1994) 首 次 提出 了 独 
立 分 量 分 析 的 严格 形式 。 

*。 最 大 焙 方 法 ， 归功 于 Bel and Sejnowski(1995), 也 是 与 最 大 互信 息 藉 则 有 关 。 最 大 料 
与 最 大 似 然 是 等 价 的 (Carloso ,1997) 。 

最 大 炳 方法 和 独立 分 量 分 析 提 供 两 种 可 供 选择 的 衣 源 分 离 的 方法 ， 并 唱 分 乔 有 自己 的 性 

质 - 以 最 大 入 原则 为 基础 的 言 源 分 离 算 法 实现 简单 ， 而 建立 在 独立 分 量 分 析 革 础 上 的 相应 算 

法 在 推导 上 更 复杂 ， 但 也 许 有 更 广泛 的 应 用 。 

在 让 源 分 离 中 经 常 引用 的 神经 生物 机 制 是 鸡 足 酒会 (cocktail party) 现 象 。 这 种 现象 是 指 人 的 

一 种 显著 能 力 ， 能 够 在 嘲 杂 的 环境 中 选择 性 地 集中 并 跟踪 感 兴趣 的 听 沉 输入。 如同 第 2 章 介绍 

的 一 样 ， 对 于 这 个 非常 困难 的 信号 处 理 问题 的 解 涉 及 的 潜在 生物 神经 模型 比 图 10.9 所 示 的 理想 

模型 复杂 得 多 。 神 经 生物 异型 包括 时 间 和 空间 处 理 形式 ， 这 尾 处 理 未 知 的 延迟 、 反 射 和 噪声 所 

必需 的 。 项 在 我 们 已 经 对 标准 的 盲 源 分 离 问 题 的 神经 解 所 涉及 的 基本 问题 有 了 一 个 合理 的 确定 

理解 ， 也 许 现 在 我 们 应 该 转移 并 上 解 决 在 规模 上 可 以 与 鸡尾酒 会 相似 的 现实 问题 。 
另 一 个 值得 仔细 注意 的 公开 研究 领域 是 育 反 卷 积 (blind deconvolution)。 反 卷 积 是 一 种 信 

导 处 理 操作 ， 它 理想 地 揭示 线性 时 不 变 系统 对 输 人 信号 所 完成 的 卷 积 效 果 。 喝 只 体 地 ， 在 通 

常 反 眷 积 中 输出 信号 和 系统 的 参数 都 是 已 知 的 ， 要 求 重 建 输 和 人 信号; 在 盲 反 卷 积 中 ， 或 老 肯 

更 精确 术语 无 监督 反 卷 积 ， 仅 有 输出 信号 是 已 知 的 并 旦 还 有 可 能 知道 源 的 统计 信息 ; 要 求 求 

得 输 人 信号 和 系统 ， 或 两 者 都 要 求 得 旬 。 很 明显 ， 育 反 卷 积 问 题 是 比 一 般 的 反 卷 积 问题 困 开 

得 多 的 信号 处 理 任务 ， 虽 然 盲 反 卷 积 在 文献 中 得 到 了 相当 大 的 重视 (Haykin,1994a) ， 与 盲 源 

分 离 问 题 一 样 ， 我 们 对 用 信息 论 模型 的 方法 来 解决 言 反 卷 积 问题 的 研究 还 处 在 初级 阶段 

(Douglas and Haykin,1997)。 而且， 在 诸如 移动 通信 通道 之 类 的 不 友好 信道 中 盲 平衡 (blind 

equaiization) 的 代价 有 效 解 ， 和 鸡尾酒 会 问题 的 解 一 样 是 一 个 所 战 性 的 问题 。 

总 的 来 说 ， 盲 自 过 应 问题 ， 在 源 分 离 或 反 卷 积 的 环境 下 ， 权 达到 监督 学 习 那 样 的 成 熟 发 

展 阶段 还 需要 很 长 的 一 段 路 要 走 -。 


注释 和 参考 文献 


[日 “ 想 进 一 步 了 解 信息 论 ， 请 参考 Cover and Thomas{1991) 的 情 ; 也 可 参考 Gray(1990) 的 书 。 
如 果 想 参考 信息 论 发 展 的 论文 集 ( 包 括 1948 年 Shannon 的 经 典 论文 )， 可 见 Slepian 
(1973)。Shannon 的 论文 经 过 一 些小 的 改动 被 重 版 在 Sharmon and 狼 eaver(1949) 的 书 和 
Sloane and 双 ner(1993) 的 书 中 。 
想 对 在 神经 处 理 中 的 信息 论 原则 作 一 个 简短 的 回顾 ， 可 参考 Atick(1992)。 想 从 生物 的 
条 度 来 理解 信息 论 方法 ， 可 参考 Yockey(1992)。 

[21 不 要 把 Linsker 的 自 组 织 最 大 互信 息 原 则 与 决策 系统 的 信息 内 容 保存 规则 相 混淆 ， 后 者 
是 在 第 了 7 章 简要 讨论 的 经 验 规则 。 

-3] 信息 论 与 感知 之 间 关 系 的 文献 综述 可 以 参考 Linsker(1990c) 和 Atick(1992)。 
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[4] 


[6] 
[了 


[8] 


息 论 理论 中 的 术语 * 箭 "的 名 字 是 从 热力 学 中 的 炳 衍生 米 的 ; 热力 学 中 的 坑 由 

旦 =- 各 plogp。 
定义 ( 见 第 11 章 )， 其 中 各 是 Boltmman 常数 ，P。 中 系统 处 于 状态 "的 概率 。 除 了 系数 名 
之 外 热力 学 中 的 精 妃 的 公式 与 我 们 在 (10.8) 给 出 得 炳 的 定义 在 数学 形式 上 是 一 敏 的 。 
Shore and Johnson(1980) 中 证 明 在 如 下 意义 下 最 大 灶 原 则 是 正确 的 : 
以 约束 形式 给 出 先 验 知 襄 ， 在 满足 这 些 约束 的 分 布 中 根据 * 相 容 性 公理 ”(consistency 
axioms) 能 够 选择 惟一 的 分 布 ; 这 个 惟一 的 分 布 由 最 大 化 精 定 义 。 
相 容 性 公理 有 四 部 分 : 
工 . 惟一 性: 结果 必须 是 惟一 的 。 
站 . 不 变性 : 坐标 的 选择 应 当 不 影响 结果 。 
型. 系统 独立 性 : 无 论 用 不 同 密度 或 用 联合 密度 来 解释 独立 系统 的 独立 信息 应 该 是 无 
KR . 子 集 独立 性 : 无论 用 分 离 的 条 件 密 度 或 用 完整 的 系统 密度 来 处 理 独 立 的 系统 状态 
子 集 应 该 是 无 关 紧 要 的 。 
Shore and Johnson(1980)? 证 明 相 对 糖 或 Kullback-Leibler 散 度 同样 满足 相 容 性 公理 。 
关于 Lagrange 乘 子 法 的 讨论 ， 参 考 Domy(1975) 的 书 。 
项 攻 X; Z， 最 初 Shannon(1948) 用 来 指 信息 传输 率 。 今 天 ， 而 我 们 用 来 指 随机 变量 式 
和 了 之 间 的 互信 息 。 
为 了 证 明 式 {10.45) 的 分 解 ， 可 以 处 理 如 上 上 。 由 定义 我 们 有 


Di = 『 Dig 全 纪 = 「 _AGoagl 全 习 ， 大全 ja 

































































(9) 天 ( 品 “ 矶 (9 
=- AGO 到 ja Loag[ 症 罗 ) 0) 
= 已， + 站 加 jx 
从 冯 ( 轨 和 万 (a 的 定义 得 到 
ud] -na 用 关 人 | 定 ol ) 
有 让 下 六 os) 巨 (5 
用 有 表示 式 (1) 最 后 等 式 中 的 积分 ， 可 以 写成 
。 - T 六 (5) 
且 = 和 Goal 关 罗 ) EX 一 | 六 (X)log - EX 
一 并 JTA (5 ) 


由 


- 立 站 ( 辐 洗 全 (二 小 Acodxojm = = 立 | log 


> 佑 全 四 访 G@ 0) 


在 上 面 最 后 的 等 式 中 用 了 式 (10.39) 的 定义 。 式 (2) 的 积分 是 Kullback-Leibler 散 度 ， 
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房 站 ，i= 12,mm: 为 了 把 甩 表达 成 最 后 的 形式 ， 注 意 函 数 产 (区 ) 下 面 的 面积 是 
1。 风 此 可 与 为 
”人 产 (zx) 本 
,es 
林产 (zy) G) 


JTTA 《) 


其 中 在 第 一 个 等 式 利用 定义 了 四 ' ， 如 同 在 10.5 季 描 述 的 -一样 。 央 此 ， 将 (3) 
代 人 (1 ， 我 们 得 到 期 望 的 分 解 : 
耗 = 及 + 政 人 
19] Nadal and Parga(1994，1997) 也 讨论 最 大 互信 息 和 完 余 减少 之 间 的 关系 ， 得 到 同样 的 结 
朱 : 神经 系统 的 输入 向 量 和 和 输出 向 量 之 间 的 于 信息 的 最 大 化 也 就 导致 数据 减少 。Haft 
and van Hemment1998) 讨论 视网膜 的 最 大 互信 息 过 滤器 的 实现 情况 。 结 果 表 明 ， 对 于 像 
视网膜 这 样 的 感觉 系统 所 产生 的 内 部 环境 表示 ， 宛 余 性 对 获得 噪声 角 收 性 是 最 根本 的 。 
10] Beceker and Hinton( 1992) 用 字母 所 表示 最 大 二 信息 的 第 -- 种 变 体 。 
11] 在 Unley(1970) 中 考虑 负 信 息 通路 ， 通 过 最 优化 通路 中 输入 信号 与 输出 信号 之 问 的 互信 
息 的 负 值 。 结 果 表 明 ， 这 样 的 系统 在 调整 期 间 适 宜 变 成 输 和 人 信和 号 集中 更 常 发 生 的 模式 
的 判别 器 。 这 种 模型 被 称 作 *infommon”, 它 与 最 大 互信 息 的 第 二 种 变 体 有 松散 关系 。 
[12] 在 Ukrainec and Haykin(1996) 中 描述 的 系统 包括 一 个 后 探测 处 理 器 ， 它 利用 关于 反射 器 
沿 水道 的 水 陆 边 界 位 置 的 先 验 知识 。 模 闭 处 理 器 结合 初始 探测 性 能 和 某 于 视觉 的 边缘 
检测 器 的 输出 以 便 有 效 地 去 除 错 误 警 报 ， 从 而 得 到 系统 性 能 的 进一步 提高 。 
13」 育 源 分 离 问 题 可 追溯 至 HErault，Jutten and Ans(1985) 的 启蒙 性 文章 。 对 盲 源 分 离 问题 的 
历史 记载 ， 参 者 Nadal and Parga(1997); 这 篇 文章 也 强调 问题 的 神经 牛 物 侧面 、 强 调 加 
有 信号 处 理 原 则 的 盲 源 分 讽 问 题 的 深刻 综述 可 以 参考 Cardoso( 1998a) . 
14] 概率 密度 函 归 逼 近 
《a)Gram-Charlier 展开 式 
令 随机 变 景 了 的 概 举 管 度 为 户 (7) ，9r(w) 是 它 的 特征 函数 。 根 据 定义 我 们 有 
er(o) = 于 _ 方 (7)e dy 《1) 


其 中 六 = -To 是 实数 。 总 的 说 来 ， 除 了 指数 形式 的 符号 改变 外 ， 特 征 函 数 pr(ow) 是 
概率 密 乱 晒 数 广 (y) 的 傅 里 时 变换 。 一 般 意义 上 ， 特 征 函数 9r(o)? 是 一 个 复数 ， 它 的 实 
部 和 虚 部 对 所 有 w 是 有 限 的 。 如 果 随 机 变量 了 的 大 阶 矩 存在 ， 则 9r(w) 可 以 在 w=0 处 
展开 成 震级 数 
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Gyrf(a) = 1+ 六 人 《2) 
名 


其 中 mm 是 了 的 下 阶 矩 ， 定 义 为 
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式 (2) 的 导出 只 旦 简单 地 将 式 K1) 中 的 指数 蚌 数 用 其 展开 式 代替 ， 交 换 求 和 与 积分 的 顺 
序 ， 并 利用 式 (3)。 如 果 特 征 函 数 能 展开 为 式 (2) 的 形式 ， 我 们 可 以 将 py(a) 的 对 数 展开 
为 (Wilks ,1962) 








epr(o = 习 生 Oo (0 


工 中 kx 站 随机 变量 了 的 m 阶 累积 量 或 半 不 变量 (semi-invariant)。 式 (4) 是 由 logey(ow) 在 
o=0 处 的 关于 jo 的 Taylor 展开 式 得 到 。 

为 了 简化 问题 ， 我 们 作 如 下 两 个 假设 : 

1- 随机 变量 y 的 均值 为 0， 即 #= 0。 

2.Y 的 方差 呈 归 一 化 的 , 即 叶 = 1。 

相应 地 ， 有 6 =0， 避 =1， 而 式 (4) 的 展开 式 变 成 


oggr(o) = 寺 Goj + 已 生 Ca) (5) 














现在 令 
r(w) = 二 答 Go) 
可 以 将 式 (3) 重 写成 





gpr(o) = 1 Uaj + ro) 
也 就 是 说 ， 特 征 函 数 可 以 表示 成 两 个 指数 两 数 相 乘 的 电 式 





pi(o) = emp( - 汪 ) .emptr(o) (6) 
将 ep(r()) 展 开 成 寡 级 数 得 到 
empfr(o) = 1+ 忆 介 0) 


将 式 (7) 代 人 式 (6)， 在 区 未 和 中 护 01) 朋 短 和 生理， 得 到 yy(o) 展 开 式 的 新 系数 : 





由 
cl = 0cy = 0,c = 后，cs = 罚 ,o = 疡 


工 1 了 
cs = 珊 (e + 106),o = 吕 辜 Co + 356 几 ) co = 和 (0 + 5 + 35 民 ) 


等 等 。 现 在 可 以 用 pr (w) 的 逆 傅 里 叶 变 换 求 概率 密度 函数 的 展开 式 广 (7)。 特 别 可 以 写 
成 











方 (7) = a(7) (+ 呈 ct) (8) 
其 中 的 e(y) 是 零 均 值 和 单位 方差 的 妆 一 化 Gauss 斋 机 燃 量 的 颁 率 密度 阅 数 ; 
-2 
afy) = 户 : (9) 
展开 式 (8) 就 称 为 由 Gauss 本 数 和 它 的 导数 表示 的 概率 密度 函数 的 Gram-Charlier 级 数 








(Stuart and Ordq,1994)- 这 种 形式 的 展开 式 具有 直观 性 好 处 。 特 别 地 ， 如 昌 随 机 变量 了 
是 由 一 些 独立 的 同 分 布 的 随机 变量 的 和 ， 那 么 当 变 量 的 数目 趋 于 无 穷 时 ， 根 据 中 心 极 
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限定 理 ， 了 趋 于 Gauss 分 布 。(Czram-Charlier 级 数 展 开 式 的 第 一 项 确实 是 Gauss 的 ， 这 意 
味 着 它 的 表 直 随 若 变量 的 数 日 增加 ， 序 列 后 而 的 项 的 和 赵 近 于 零 。 
式 (8) 中 的 Hemite 多 项 式 肪 (7) 通 过 ay) 的 六 阶 导 数 定义 为 
ao 人 7) = (Deal 有 (7 (10) 
下 和 面 足 一 些 典型 的 Termite 多 项 式 : 
丽人 (9) = 1 癌 (7) = YY 有 (7) = 大 -1 
Hi(7) = 六 -3y ,有 (7) = 人 -6w+3， 
民 (y) = 站 -107 +13y 有 (7) = 137 + 生产-15 
这 些 多 项 式 的 递 推 关系 为 
五 7)》 = YY) -AT) 《1H) 
Hemmite 多 项 式 一 个 特别 有 用 的 性 质 是 肥 (y) 和 Gauss 函数 a(y) 的 mm 次 导数 是 双 正 交 
的 ， 表 示 为 
人 号 CODar0) 帮 = (Drmlaaw， (mm) = 0 《12) 


其 中 sm 足 Kmnecker 符号 ， 当 直 = mm 为 它 为 1， 其 他 情况 为 0。 
重要 的 是 注意 到 项 的 自然 硕 序 对 Gram-Chanlier 级 数 并 不 是 最 好 的 。 相 反 ， 应 按 下 面 佑 
出 的 圆 括号 内 的 项 分 组 (Helstrom,1968)， 

= 《0) ,(3),(4,6),(5,7.9) 《13) 
这 些 分 组 的 元 素 经 常 是 同一 数量 级 的 。 例 如 我 们 保留 寺 =4 的 项 ， 则 我 们 也 应 当 包括 上 
=6。 
(b)Faegeworth 展开 式 
与 前 面 一 样 ， 令 cy) 是 一 个 归 一 化 为 零 均 值 和 方差 为 ! 的 随机 变量 的 概率 密度 函数 。 
随机 变量 了 的 概率 密度 果 数 对 Causs 逼近 of y ) 的 Edgeworh 展开 式 为 (Comon,1994; Stuart 
and Ord,1994) 




















人 9 =1+ 革 包 (7) + 着 甩 (让 + 1 + 守护 (7) 
00 + 首 友 CD + 3 全 所 7) CI4) 





3 2100 吧 15400d 
这 甩 (7) + 一 OP Ho()) + 人 Ho(y) + 


其 中 ec 表示 标准 化 后 的 慰 量 随机 变量 了 的 i 阶 累积 量 ， 取 表示 ; 阶 Hemmite 多 项 式 。 式 
(14) 叫 做 Edqgeworth 级 数 。 

Edgeworth 展开 式 的 关键 特征 是 系数 为 一 致 递减 的 。 另 一 方面 ， 式 (8) 中 的 Gram-Chanlier 
展开 式 从 数值 误差 来 看 并 不 一 致 趋 于 0; 也 就 是 说， 一 般 地 ， 设 有 哪 一 项 可 以 被 忽略 。 
也 就 是 这 个 原因 ， 才 要 按照 式 (13) 的 分 组 来 截断 Gram-Chanlier 展开 式 。 








[15] 用 YI = (YDP)W7W 代替 通常 梯度 VD 解决 言 源 分 离 问 题 的 思想 在 Cardoso and Laheld 


〈1996) 中 有 详细 的 介绍 。 这 里 Y 呈 称 为 相对 梯度 ， 这 个 梯度 与 自然 梯度 是 相同 的 。 自 然 
梯度 是 从 信息 几何 的 观点 来 定义 的 (Amari ,1998;Amari et al.1996)。 类 似 的 算法 时 些 时 候 
在 Cichocki and Moszezyfski(1992) 和 Cichocki et al.(1994) 中 有 描述 。 
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[16] 例如 .在 =” 维 黎 芝 空间 中 ,向量 a 的 平方 范 数 定义 为 


| af = 刀 eow 

其 中 名 是 黎 曼 空间 坐 要 z ，za，…， 浆 的 函数 ， 中 = 且 ， 表 达 民 右边 总 是 正 的 。 

这 个 表达 式 是 欧 儿 里 德 平方 范 数 公式 
lall2 = 2 
的 推广 。 关 于 黎 曼 空间 结构 的 讨论 ， 参 考 Amari(1987) 和 Mumay and Ricet 1993)- 

[17] 根据 式 (10.55) 定 义 精 吾 (Y) 和 KKY;) 之 问 的 关系 ，Bell and Sejnowski(1995) 把 他 
们 的 育 源 分 离 的 方法 称 为 最 大 互信 息 原 则 。 但 是 更 好 的 术语 是 “最 大 业 方 法 "， 因 为 它 
涉及 隧 关 (Z) 的 最 大 化 ， 其 中 也 = G(Y)。 归 功 于 Bell 和 Sejnowski 的 计 源 分 离 的 最 大 精 
方法 不 应 与 归功 于 Burg(i975) 的 谱 分 析 的 最 大 炳 方法 (MEM) 相 混 消 。 

[18] 随机 密 基 4 被 称 为 亚 喜 斯 (suhb-Gauss) 的 (Benvenisie el al,,1987) ， 如 果 
。 它 是 均匀 分 布 的 。 

。 它 的 概率 密度 函数 六 (*) 可 以 表示 成 epp( - &E(xY)) 的 形式 ， 其 中 gx) 可 能 除了 原点 
外 为 可 微 的 偶 画 数 ， 并 且 g(z) 和 8(z)7x 在 区 间 (0, m ) 是 严格 递增 的 。 询 各 ,可 
能 取 g(xz)= 1xzH，B>2。 

但 是 ， 如 果 如 (xz)/x 在 (0，m ) 是 递减 的 ， 而 其 他 的 性 质 都 满足 ， 则 随机 变量 幸 就 叫 起 

高 斯 (super-Gauss) 的 (Benveniste et al. ,1987 )， 例 如 g(z) = 1xzl2，B< 2。 

有 时 (也 许 有 些 滥用 的 方式 ) 使 用 随机 变量 的 峭 度 (kurtosis)} 符 号 作为 业 高 斯 或 超 高 斯 的 

指标 。 随 机 变量 蕊 的 峭 度 定义 为 





























[人 
0) = ED 


在 此 基础 上 ， 根 据 峭 度 玉 {z) 为 负 或 为 上 ， 随 机 变量 开 分 别称 为 上 高 斯 或 超 高 斯 的 。 
习题 
最 大 焙 原 则 

10.1 随和 宙 变 量 式 的 支撑 集 ( 也 就 是 取 非 零 的 值 域 ) 定 义 为 [ec;]; 没有 别 的 限制 加 在 天 
上 ，。 该 随机 变 其 的 最 大 炳 分 布 是 什么 ?证 明 你 的 结论 。 
互信 息 

10,2 推导 10.4 节 描述 的 随机 变 显 忒 和 王 的 互信 息 天 民 ; 瑟 的 特性 :. 

10.3 很 设 输入 随机 向 量 和 由 初始 分 量 和 和 背 最 分 量 素 组 成 ， 定 义 

下 = 让 2 = 区 束 

试问 站 和 2, 之 间 的 号 信息 和 忌 和 素 之 癌 的 互信 息 有 何 关系 ? 假设 向 熏 忆 的 概率 模型 是 多 
元 Causs 分 布 


-3 


1 ， 四 
户 (x) = 人 ( 志 JEDRespt(x 本)7 瑟 (xz -有 


其 中 呈 是 买 的 均值 ， 马 足 它 的 协 方差 第 阵 。 
10.4 在 这 个 本 是 中 我 们 探索 用 相对 入 或 Kullback-Leibler 散 度 来 推导 多 层 感知 机 
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(Hopfield.1987b; Baum and 有 iiczek,1998 ) 的 监督 学 习 算法 。 更 确切 地 说 ， 考 虑 一 个 由 一 个 输 
人 层 、 一 个 隐藏 层 和 一 个 输 击 层 构 成 的 多 层 感知 和 机， 假设 实例 或 样本 e 苦 现 给 输入 ， 输 出 层 
昼 经 元 大 的 笨 出 解释 为 概率 : 
Ttia 二 Pale 
相应 的 ， 令 ws 表示 当 输入 是 =“ 时. 假 疫 左 为 嘉 的 条 件 民 率 的 实际 值 ， 该 多 层 感 知 机 的 相对 
及 1 = 忆 p 于 (wsl 2 + 人 (人 - ooxgl 这 后 
其 中 mm 是 一 个 出 现 情况 的 先 验 概 率 。 
以 肪 ,为 最 优化 的 代价 两 数 ， 推 导 一 个 多 层 感 知 从 的 学 习 算法 。 
最 大 互信 息 原则 
10.5 假设 有 耶 个 通道 。 它 们 的 输出 分 别 用 随机 变量 下 和 表示， 要 求 使 了 ,之 间 的 
互信 息 达 到 最 大 。 汪 明 只 要 满足 以 下 条 件 则 就 可 以 达到 要 求 : 
(a) 出 更 区 的 概率 和 出 现 了 的 概率 分 别 是 0.5。 
(Pb) 王 ， 了 的 联合 概 举 密 度 函 数 集中 在 概率 空间 的 一 个 小 区 域内 。 
10.6 考虑 图 10-17 中 的 噪声 模型 ， 曙 个 神经 网 络 的 输入 端 都 为 m 个 源 节 点 。 输 入 由 
卫 ，，…， 如 表示 ， 相 应 的 输出 结果 用 下 ， 歼 表示。 你 可 以 作 如 下 假设 : 
。 网 络 输出 端的 加 性 噪声 分 量 轴 ， 玉 是 Gauss 分 布 ， 具 有 有 零 均 值 和 共同 方差 顺 ， 并 且 
互 不 相关 。 
。 每 个 喉 声 源 与 输入 信号 无 关 。 
*。 输 对 信号 六 ， 丈 都 是 0 均值 的 Causs 分 布 。 
(a) 求 输出 向 量 立 = [ ,2 ] 与 输入 向 量 叉 = [五 ,和 和]7 之 间 的 互信 息 。 
(b) 利 用 (a) 中 导出 的 结果 ， 检 测 在 以 下 情况 下 元 余 / 相 异 性 是 如 何 折 中 的 ( Linsher， 
1998a) : 
《噪声 的 方 益 很 大 ， 表 示 为 四 相对 于 页 ， 丈 很 大 。 
(这 噪声 的 方差 很 小 ， 表 示 为 路 相对 于 蕊 ， 歼 很 小 。 

















全 

-二 
| 
全 





图 10-17 


10.7 在 10.9 节 中 所 描述 的 最 大 互信 息 原则 的 变 体 ( Becker and Hinton，1992) 中 ， 目 标 
是 根据 曲 声 神经 系统 的 输入 向量 忆 . ， 束 求 答 出 区， 也 之 间 的 互信 息 蕊 球 ; 玉 ) 的 最 大 值 。 
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存 Becker and Hinton (1992) 讨 论 的 另 一 个 方 尖 中 ， 一 个 不 同 的 日 标 是 求 输出 只 和 隐 的 平均 
什 与 它们 团 有 的 共同 信号 分 景 $ 之 间 的 下 信息 开 2 计 共 sj 的 最 大 俩 。 
利用 趟 (10.59) 和 式 (10.60) 由 描述 的 噪声 模型， 2 F 列 任务 : 


(a) 证 明 
| 了 + 站 ,3 _ inf 2 二 冯 ]) 


vaTN + NT 
其 时 Ni， 是 中 ， 怠 轴 应 的 噪声 分 最。 

(bp) 用 信号 加 噪声 与 噪 卢 的 比 来 解释 此 互信 息 
独立 分 量 分 析 

10.8 给 出 主 分 基 分 析 ( 在 第 8 章 讨 论 ) 与 独立 分 量 分 析 ( 在 本 章 讨论 ) 的 详细 比较 。 

10,9 独立 分 量 分 析 可 以 用 作 检 测 利 分 类 之 前 近似 数据 分 析 的 预 处 理 步 骤 ( Comon， 
1994 )。 讨论 能 在 这 种 应 用 中 加 以 利用 的 独立 分 量 分 析 的 性 质 。 

10.10 Damois 定理 陈述 只 有 妆 各 个 独立 变量 是 Causs 分 布 的 ， 其 和 才 是 Gauss 分 布 的 
(Darmmois,1993?。 用 儿 立 分 量 分 析 证 骨 这 个 定理 。 

10.11 在 实际 的 应 用 中 ， 一 个 独立 分 量 分 析 算法 实现 只 能 得 到 * 尽 可 能 统计 独立 "。 比 
较 用 该 算法 解 育 源 分 离 问题 得 到 的 解 与 利用 去 由 关上 方法 得 到 的 解 的 差异 。 假 设 观察 向 量 的 协 
方差 乍 阵 为 非 奇异 的 。 

10.12 ”参考 图 10-9 描述 的 系统 ， 让 明 分 离 咒 的 输出 Y 的 任何 两 个 分 芋 的 互信 息 最 小 化 
与 参数 化 的 概率 密度 函数 六 (7, 风 ) 和 相应 的 析 因 分 布 六 (y,W) 之 间 的 kuliback-Leibler 散 度 的 
最 小 化 等 价 。 

10.13 在 式 (10,104) 中 谱 述 的 言 源 分 离 问题 的 自 适 应 算法 有 两 个 重要 的 性 质 ， (1) 等 变 
化 性 ，(2) 权 值 惩 阵 W 保持 非 奇 蜡 。 性 质 (1 在 10.11 节 后 面部 分 有 详细 的 介绍 。 在 本 习题 
中 我 们 考查 第 二 个 性 质 。 

假设 用 于 开始 (10.104) 算 法 的 初始 值 W(0) 满 足 的 条 件 1det(WK0))1 径 0， 证 明 对 所 有 的 
二 有 1det(W(n))1 尖 0。 这 是 保证 W(n) 对 所 有 的 "是非 奇异 的 充分 必 雪 条 件 。 

10.14 在 这 个 问题 中 ， 我 们 讨论 式 (10.104) 所 描述 的 盲 源 分 离 算法 的 批 处 理 公式 。 特 
别 地 ， 我 们 写成 
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其 中 六 是 可 用 数据 点 的 数目 。 证 明 上 式 描述 的 权 值 矩阵 三 的 调整 AW 的 公式 成 立 。 
最 大 入 方 法 

10.15 考虑 图 10-15， 我 们 得 到 
Y- WX 
其 中 六 


Y = 
和 = [和 有 


全 是 一 个 站 x 严 的 权 值 短 阵 。 令 





其 中 


也 = [Z 2 
用 )， = 2 


(a) 证 明 马 的 联合 箭 与 Kulback-Leibier 散 度 六 17 之 问 的 关系 为 


AZ) =- Di7- 力 |， 


其 中 访 )* 是 下 面 两 个 量 的 Kallbaek-Leibler 散 度 : (a) 统 计 独 立 的 ( 即 析 因 


的 概率 密度 亲 数 ， 





(由 开 ”，4(y,) 定 义 字 率 密度 函数 。 


式 的 ) 输 出 向 量 组 立 


(b) 对 所 有 的 i， 当 4(y:) 与 初始 源 输出 已 的 概率 密度 函数 相等 时 ，8(Z) 的 公式 该 如 何 


修改 ? 


10.16 (a) 从 式 (10.134) 开 始 ， 推 导 式 (10.135) 的 结果 。 
(b) 用 式 (10.136) 中 的 logistic 函数 ， 证 明 使 用 式 (10.135) 将 产生 由 式 (I0.137) 给 出 的 公 


式 。 





第 11 章 植 根 于 统计 力学 的 随机 
机 器 和 它们 的 逼近 
41.1 简介 


作为 我 们 无 监督 ( 自 组 织 ) 学 习 系 统 的 最 后 一 种 类 别 ， 我 们 以 统计 力学 作为 我 们 思想 的 出 
发 点 。 统 计 力学 的 主题 围绕 对 大 系统 宏观 平衡 态 性 质 的 形式 化 研究 ， 而 系统 的 每 个 基本 元 素 
服从 力学 的 微观 定律 : 统计 力学 的 主要 日 标 是 从 微观 元 索 如 原子 和 电子 的 运动 推导 出 宏观 物 
体 的 热力 学 性 质 (Landau and Lifhitz,1980; Parisi,1988)。 这 里 面 对 的 自由 度数 景 是 已 大 的 ， 这 
样 只 有 利 鼎 统计 的 方法 进行 研究 。 正 如 Shannon 的 信息 论 一 样 ， 在 统计 力学 的 研究 中 灼 概 
念 起 普 关键 的 作用 : 系统 越 有 序 或 者 它 的 概率 分 布 越 集中 ， 则 业 越 小 。 同 样 我 们 可 以 说 ， 系 
统 越 无 序 或 它 的 概率 分 布 越 均 邱 ， 则 炳 越 大 。 在 1975 年 ，Jarnes 证 明了 炳 不 仅 可 以 像 前 一 
章 所 述 的 那样 作为 构造 统计 推理 的 出 发 点 ， 而 且 可 以 作为 产生 统计 力学 研究 基础 的 Gibhs 分 
布 的 出 发 点 。 

利用 统计 力学 作为 研究 神经 网 络 基础 的 兴趣 可 以 追溯 到 Cragg and Temperley(1954) 以 及 
Cowan(1968) 的 早期 工作 。Boltzmam 机 (Hinton&Sejnowski,1983,1986; Ackley et 引 . ,1985) 也 许 
是 第 一 个 由 统计 力学 导出 的 多 层 学 习 机 。 机 器 命名 的 原因 是 为 了 表明 神经 网 络 自己 的 动 
力学 行为 和 Boltzmann 初始 的 统计 热力 学 的 形式 的 等 价 性 。 基 本 上 说 ，Boltzmamn 机 可 以 对 
给 定数 据 集 的 固有 概率 分 布 进行 建 模 ， 这 样 在 诸如 模式 完备 和 模式 分 类 等 任务 中 所 使 有 
的 条 件 分 布 就 可 以 导出 来 了 。 令 人 遗憾 的 是 Boltzmann 机 的 学 习 过 程 是 令 人 难以 忍受 地 慢 ， 
这 一 缺点 导致 对 Boltzmamn 机 的 修改 和 产生 了 新 的 随机 机 器 。 以 上 这 些 问 题 构 成 了 本 章 的 
大 部 分 题材 。 


本 章 的 组 织 


本 章 被 组 织 成 三 部 分 。 第 一 部 分 由 11.2 节 至 11.6 节 所 组 成 。1t1.2 节 给 出 统计 力学 的 简 
要 评述 ， 在 11.3 节 中 回顾 一 类 特殊 类 型 的 随机 过 程 ， 即 Martkorv 链 ， 它 是 在 研究 统计 力学 中 
常会 遇 到 的 。11.4 节 、11.5 节 和 11.6 节 描 述 三 种 随机 模拟 技巧 : Metmpolis 算法 、 模 拟 退 火 
和 和 Gibhs 抽样 。 

本 章 的 第 二 部 分 由 1.7 至 11.9 节 组 成 ， 讨 论 三 类 随机 机 器 。11.7 节 描 述 Boltmmann 机 。 
11.8 节 描 述 sigmoid 佑 度 网 络 。11.9 节 描 述 另 一 类 新 的 称 为 Helmholtz 机 的 随机 机 器 。 

本 章 的 最 后 ~- 部 分 由 11.10 节 至 11.13 节 组 成 ， 讨 论 随 机 机 器 的 基于 统计 力学 中 的 平均 
场 理论 的 逼近 。11.10 节 讨 论 在 一 般 意义 下 的 平均 场 理论 。11.11 节 讨 论 Boltzmann 机 的 平均 
场 理 论 ， 随 后 的 11.12 节 讨 论 对 sigmoid 信 度 网 络 平均 场 理 论 更 原则 性 的 处 理 方法 。11.13 节 
描述 一 种 对 模拟 退火 的 逼近 ， 即 确定 退火 。 

本 章 最 后 在 11.14 节 中 给 出 最 终 的 评论 。 
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11.2 统计 力学 
考虑 共有 许多 白 册 度 的 物理 系统 ， 它 可 以 驻 留 在 大 量 可 能 状态 中 的 任何 “个 - 例如 ， 用 
忆 袁 示 状态 ; 发 生 的 概率 ， 具 有 如 下 性 质 : 
六 关 0 任 给 (HL.1) 
和 mr =1 (11.2) 


用 五 表示 系统 在 状态 时 的 能 量 ， 统计 热 用 学 千 诉 我 们 ， 当 系 统 和 它 周 围 的 环境 处 于 热 平 
窒 时 ， 一 个 基本 的 结果 是 状态 # 发 生 的 概 浆 如 下 : 





= ee - 癌 ) (11.3》 
其 中 了 为 开尔文 绝对 温度 ， 知 为 Boltmann 常数 ，Z 为 与 状态 无 关 的 常数 。1 开尔文 度 相当 
于 摄氏 -273 度 ， 操 =1.38x 10-2 焦 年/ 开 。 
式 (11.2) 定 义 概 率 规范 化 的 条 件 。 将 这 个 条 件 加 入 到 式 (11.3) 我 们 有 
Z = eo( -总 ) 《11.4) 
规范 化 量 Z 称 为 状态 和 或 者 剖 分 函 救 (通常 用 符号 8 是 因为 这 项 的 德 文 名 字 为 Zustadsumme)。 式 
《11.3) 的 概率 分 布 称 为 典型 分 布 或 Cibbs 分 布 D1; 指数 因子 exp( - 忆 /ia7) 称 为 Boltanann 固 
子 。 
对 Gibbs 分 布 以 下 两 点 值得 注意 : 
1. 能 量 低 的 状态 比 能 量 高 的 状态 发 生 的 概率 高 ; 
2. 随 着 温度 了 降低 ， 概 率 集 中 在 低能 状态 的 一 个 更 小 的 子 集 上 。 
在 神经 网 络 的 领域 内 ， 就 我 们 主要 关心 的 内 容 而 言 ， 温 度 了 可 以 被 视 为 一 种 伪 温 度 ， 
它 控 制 表 示 一 个 神经 元 突 触 周 声 的 热 波 动 。 它 的 精确 标 度 内 而 无 关 重要 。 相 应 地 ， 我 们 可 以 
置 常数 名 为 单位 而 重新 度量 之 ， 因 此 重新 定义 概率 记 和 剖 分 机 数 民 如 下 ， 


玉 = | 一 允 ) (11.5) 
和 2 -= 马 eo- 到 (11.6) 


今后 我 们 处 理 统计 力学 就 在 这 两 个 定义 基础 上 进行 其 中 了 简单 称 为 系统 温度 。 从 式 (11.5) 
我 们 注意 到 - logp; 可 以 被 看 作 在 单位 沁 度 下 "能 景 "的 一 种 度量 。 





























自由 能 是 和 炳 
一 个 物理 系统 的 Helmhoitz 自由 能 量 记 为 户 ， 由 剖 分 函数 2 定义 如 下 : 
灭 =- ?log2 《11.2) 
系统 的 平均 能 量 定义 为 
< 已 >= > p 书 (11.8) 


其 中 < . > 圾 示 总 体 平均 运算 。 因 此 ， 利用 式 (11.5) 至 式 (11 -8) ， 可 以 看 出 平均 能 量 和 自由 
能 量 之 差 为 





玲 贺 于 郊 矿 力 党 条 屠 疯 疯 纪 大 亿 芍 具 过 这 _ 399 





< 上 >- 天 =-7 了 >plogp， (11.9) 
式 (了 .9) 右 边 的 量 和 忽略 浊 度 了 ， 称 为 系统 的 卦 ， 表 必 为 
妃 = - >)Jpilogp， (1.10) 


因此 我 们 重 可 以 安 式 (11.9) 为 
< 忆 >- 严 = 了 8 
的 形式 或 等 价 的 
P=< 玉 >- 7 (1.10) 
考虑 两 个 系统 4 和 小 彼此 热 接 触 。 假 设 系统 4 比 系统 清 更 小 ,这样 少 可 以 看 作 只 有 便 
温 了 的 热 储 藏 器 。 两 个 系统 的 总 箭 朴 向 于 依 赂 关系 式 (Reif,1967 ) 
AT+AE 0 
增加 ， 其 中 A 刀 和 A 末 分 别 表示 系统 4 和 秋 炉 的 改变 量 。 根 据 式 (11.11)， 这 个 关系 的 涵义 
古 指 自由 能 量 逐 渐 降低 至 平衡 态 时 变 为 最 小 。 几 统计 力学 我 们 发 现 此 时 它 的 概率 分 布 为 
Gihbs 分 布 。 因 而 我 们 有 一 个 重要 的 原则 称 为 最 小 自由 能 量 原则 ， 它 可 以 陈述 如 下 (Landau 
and Lifsbitz, 1980; Parisi 1988) : 
随机 系统 变 元 的 自由 能 量 的 最 小 值 可 在 热平衡 时 达到 ， 此 时 系统 服从 Gibbs 分 布 - 
自然 偏爱 具有 最 小 自由 能 基 的 物理 系统 .。 
11.3 Markov 链 


考虑 一 个 由 多 个 随机 变量 组 成 系统 ， 其 演化 可 出 一 个 随机 过 程 1 忆 ,z = 1,2,…:; 描 述 。 
随机 变量 f. 在 时 刻 ” 取 值 zx 称 为 系统 在 = 时 刻 的 状态 。 随 机 变量 所 有 可 能 的 值 徇 成 的 空间 
称 为 系统 的 状态 空间 。 如 果 随 机 过 程 j 和 ,nm = 1,2，… 汪 的 构造 使 得 所 .的 条 件 概率 分 布 仅 依 
靠 于 马 的 值 而 与 其 他 以 前 的 值 无 关 ， 我 们 所 这 个 过 程 为 Matkov 甸 (Feller,1950;Ash,1965)。 
喝 准 确 地 说 ， 我 们 有 

下 = | 和 = PC 《1.12》 

这 称 之 为 Markov 特性 。 换 人 句 话 说 ; 

如 果 系 统 在 n+] 时刻 出 现状 态 %% ii 的 概 准 仅 依赖 于 系统 在 只 时 刻 出 现状 态 的 概率 ， 
则 随机 变量 序列 中， 到 ，…， 恩 ， 关 ,成 为 Markoy 链 。 

因此 我 们 可 以 将 Markov 链 看 作 产 生 模 型 ， 它 由 … 些 状态 和 可 能 的 状态 转移 链接 而 成 。 
每 时 刻 访问 一 个 特定 的 状态 ， 模 型 输出 一 个 该 状态 相关 的 符号 。 


转移 概率 
在 Markov 链 中 ， 从 一 个 状态 到 另 一 个 状态 的 转移 是 随机 的 ， 但 输出 符号 却 是 确定 的 。 


令 














By = 严 ( 和 = 了 71R = 《11.13) 
表示 在 n 时 刻 状态 ; 转移 到 ”+ 1 时 刻 状 态 / 的 转移 概 。 既 然 P 为 条 件 和 概率 ， 所 有 的 转移 
概率 必须 满足 两 个 条 件 : 
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E3 
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忆 0 对 所 有 (站 《11.14) 

yp = 1 对 所 有 (11.15) 

我 们 将 假定 转移 概率 其 固定 的 ， 不 随时 间 改 变 ; 也 就 是 说 ,， 式 (14.13) 对 所 有 时 间 ”成立 。 
在 这 种 情况 下 ，Markov 链 称 为 关于 周 间 是 章 次 的 。 

如 果 系 统 具 有 有 限 数目 的 可 能 状态 ， 例 如 天 个 状态 ， 则 转移 李 闵 构成 一 个 故 x 下 的 惩 


阵 
Pr pe Pix 
P-| 各 全 人 (1.16) 
Pr PR ”PK 


它 的 元 素 满足 式 (11,14) 和 式 (11.15) 所 叙 的 条 件 ， 而 后 一 条 件 就 是 卫 的 每 行 的 和 为 l。 这 种 
类 型 的 矩阵 称 为 瑚 机 和 件 。 任 何 随机 宅 阵 可 以 作为 转移 概率 惩 阵 。 
由 式 (11.13) 定 义 的 一 步 转 移 概率 可 以 推广 到 经 过 固定 的 步 数 从 一 个 状态 转移 到 另 一 
状态 。 令 pg 表示 从 状态 ; 到 状态 的 m 步 转 移 福 率 : 
Pi = 也 ( 筷 ,= 为 1 有 = 和 下 = 2 《11.17) 
我 们 可 以 把 py”" 看 作 系统 从 状态 ; 转移 到 状态 7 经历 的 所 有 中 间 状 态 上 的 和 ， 特 别 地 ，P 和 人 
可 由 pi 递 推 而 得 : 














Per0 = 0 2 (11.18) 
而 PP = 了 
式 (11.18) 可 以 推 六 如下: 

7 加 =- pg 名 ， (mypn) = 112 (11.19) 


这 是 Chapman-Koltnogoroy 二 等 广 的 特殊 情形 (keller,1950)。 
当 链 上 的 一 个 状态 仅 能 在 d 的 整数 倍 时 刻 上 重新 出 现 ， 我 们 说 该 状态 有 周期 4。 一 个 
Markov 链 称 为 非 周期 的 ， 如 果 它 的 所 有 状态 仅 有 周期 1。 
常 返 性 
假设 一 个 Markov 链 从 状态 让 开 始 ， 它 以 概率 下 返回 状态 ， 则 称 状 态 让 为 常 返 的 ; 
也 就 是 说 





天 = 己 ( 总 是 返回 状态 = 
若 概率 上 < 1， 则 称 状 态 1 为 皮 态 (Leon-Gareia.1994)。 

如 果 Markov 链 从 一 个 党 返 态 开始 ， 则 该 状态 在 时 间 上 将 无 穷 次 重 现 。 如果 从 一 个 瞬 态 
开始 ， 它 将 只 能 有 限 次 重 现 。 这 可 以 作 如 下 解释 ~ 我 们 可 以 把 状态 ;重新 发 生 看 作 一 个 成 功 
概率 为 乒 的 Bemoulli 试验 。 它 返回 的 次 数 为 具有 均值 (1 - 户 ') 的 几何 随机 变量 。 若 上 < 1， 
这 意味 着 有 无 穷 次 成 荔 的 次 数 为 零 。 因 此 一 个 瞬 态 确实 在 有 限 次 返回 后 不 再 发 生 (Leon- 
Careia ,1994) 。 

如 果 一 个 Markov 链 有 某 些 瞬 态 和 常 返 状 态 ， 则 该 过 程 最 终 只 会 在 常 返 态 之 间 移 动 。 
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不 可 约 Markov 链 


一 个 Martkov 链 上 的 状态 7 称 为 从 状态 可 达 的 ， 如 果 从 状态 守 到 / 存在 有 限 步 具有 正 概 
率 的 转移 。 如 果 状 态 和 状态 7 之 间 互 为 可 达 的 ， 则 该 Markov 链 的 状态 让 和 状态 7 称 为 彼此 
相通 的 。 这 种 相通 可 写作 jj。 很 明显 ， 如 昌 状 态 夺 与 状态 7 相通 ， 且 状态 /与 状态 上 相通， 
即 ie 和 7， 则 状态 宇和 状态 大 相通 、 即 关 。 

如 果 - -个 Matkov 链 的 两 个 状态 相通 ， 它 被 说 成 是 属于 同一 类 的 。 一 般 情 况 下 ，- 个 
Markov 链 的 状态 组 成 一 个 或 多 个 不 相通 的 类 。 但 是 ， 如 果 所 有 状态 组 成 一 个 类 ， 则 称 该 
Markor 链 为 不 可 分 的 或 不 可 约 的 。 换 句 话说 ， 一 个 不 可 约 的 Mardkov 链 从 任 一 个 状态 开始 ， 
可 以 以 正 的 概率 达到 任何 别 的 状态 。 可 约 链 在 大 多 数 的 应 用 领域 无 实际 价值 ， 相 应 地 我 们 限 
制 我 们 的 注意 仅 在 不 可 约 的 链 。 

考虑 一 个 不 可 约 的 Markov 链 ， 在 时 刻 = = 0 时 开始 于 常 返 态 i。 令 也 (各 表示 第 上 -1 次 
和 第 大 次 返回 状态 ;之 问 的 时 间 间 隔 。 状 态 i 的 乎 均 常 返 时 间 定 义 为 届 ( 有 关于 天 的 期 望 值 。 
状态 ;的 稳 态 概率 ， 记 为 x ， 等 于 平均 常 返 时 间 严 工 (二 )] 的 倒数 ， 即 由 下 式 表示 : 











下 二 大 区 9] 

若 相 [下 (6)] < 吧 ， 也 就 是 x, > 0， 状 态 ; 称 为 正常 返 的 。 若 王 [ 开 ( 划 ] =  ， 也 就 是 一 
=0， 状 态 工 称 为 零 常 返 的 。r, =0 意味 普 Markov 链 最 终 达 到 的 状态 再 返回 状态 ; 旦 不 可 能 
前 。 正 常 返 和 零 常 返 是 不 癌 类 的 性 质 ， 这 意 昧 着 辣 时 具有 正常 返 和 零 常 返 的 Markov 链 是 可 
约 的 。 
遍历 Markov 链 

大 体 上 说 ， 遍 历 性 意味 着 我 们 可 以 用 时 间 的 平均 条 代 总 霜 平均 。 对 一 个 Maqov 链 来 说 ， 
遗 历 性 意味 着 链 处 于 状态 1 的 时 间 长 度 和 稳 态 概率 x' 相对 应 ， 这 可 以 说 时 如 下 。 并 次 返回 
后 花费 在 状态 的 时 间 比 记 ( 天 ) 定 义 为 

(CD = 一 上 
了 了 TD) 
各 
返回 时 间 了 (站 构成 一 列 独 立 的 和 同 分 布 的 随机 变量 ， 因 为 由 定义 ， 每 次 返回 的 时 间 都 是 和 
以 前 返回 的 时 间 统 计 独 立 的 。 更 进一步 ， 对 常 返 态 1 ， 链 返回 状态 主 无 穷 次 。 内 此 当 返 同 次 
数 上 通 近 无 穷 大 时 ， 大 数 定 律 表明 ， 花 费 在 状态 :的 时 间 比 例 趋 近 稳 态 概率 ， 表 示 为 
im (有 = 和 全 = 2 天 《11.20) 
Markoy 链 为 遍历 的 一 个 充分 但 不 必要 的 条 件 是 它 为 不 串 约 的 昌 非 周期 的 。 






































收 笋 于 平衡 分 布 

考虑 一 个 遍历 的 Markov 链 ， 相 应 的 转移 逢 阵 为 P。 令 行 向 量 允 " "表示 链 在 = - 1 时 刻 
的 状态 分 布 向 量 ; zi" 的 第 j 个 分 量 为 在 时 刻 n - 1 时 链 处 于 状态 七 的 概率 。 在 = 时刻 状 
态 分 布 向 量 可 以 定义 为 
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开 ” = 名 "7) 电 (1l.21) 
出 (11.21) 迁 代 得 到 
有 0 = 有 了 
并 且 最 后 可 以 写成 
和 (11.22) 


其 中 咪 " 为 状态 分 布 问 量 的 初始 值 。 也 就 是 说 ，Martkov 链 在 时 刻 ” 状态 分 布 向 量 为 初始 状态 
分 布 向 量 下 ”和 随机 拭 阵 王 的 壮 次 方 的 乘积 。 

令 p 表示 下 的 第 小 个 元 素 。 假 设 随时 间 ”趋向 元 穷 大 时 ，24” 趋 于 与 无 关 的 艺 ， 其 
中 为 状态 / 的 稳 态 概率 。 相 应 地 ， 对 于 大 的 ”， 算 阵 习 逼近 于 有 相等 行 的 方 阵 形式 ， 可 
表示 为 


了 到 TAR 开 
0 开 : 人 于 | 开 

limP" = | . 本 .| =| ， 《11.23) 
Te 磺 


其 中 和 是 行 向 量 由 ，m，…，mxx 构成 。 从 测 我 们 由 (11.22) 发 现 ( 经 过 一 系列 调整 ) 
[ ro -1]r=u 
因为 由 定义 对，,z -= 1 ， 初 始 分 布 的 独立 向 景 满足 这 个 条 件 。 
现在 我 们 可 以 叙述 关于 Markov 链 的 遍历 定理 如 下 (Feller,1950; Ash ,1965): 


设 一 个 遍历 且 不 可 约 的 Markor 链 有 只 有 状态 zj ，za，…，zt 和 随机 甜 阵 孔 = ipy}。 那么 ， 
该 链 有 惟一 的 平稳 分 布 ， 可 以 出 尾 一 初始 态 收 笋 到 它 ; 也 就 是 说 ， 存 在 惟一 一 组 数 jz ji 使 
得 








1， fm pe = 瑟 对 于 所 有 (1.24)》 
2.x, >0 对 于 所 有 (11.25) 
3. 21m = 1 (11.26) 
各 
K 
4,m = rp 对 于 厂 = 12，, 开 (11.27) 


相反 ， 假 咱 一 个 Markov 链 为 非 周期 不 可 约 的 ， 郴 在 j 关 坟 ( 满 足 式 (11.25) 至 (11.27)， 那 
么 该 链 是 遍历 的 ，z 由 式 (11.24) 给 出 ， 状 态 了 的 平均 常 返 时间 为 Hi。 

概率 分 布 函 数 |ri 护 , 称 为 不 变 分 布 或 平稳 分 布 。 这 样 命 名 是 内 为 它 一 旦 建立 ， 将 永远 保 
持 . 根据 多 历 定理 ， 我 们 可 以 断言 : 

， 从 任意 初始 分 布 开始 ， -个 Markov 链 的 转移 慨 率 将 收敛 于 一 个 平稳 分 布 ， 只 要 这 个 

平稳 分 布 存 在 。 

，” 遍历 的 Markov 链 的 平稳 分 布 独立 于 它 的 初始 分 布 。 

例 11.1 考虑 一 个 Markov 链 ， 其 状态 转移 图 由 图 11-1 描绘 ， 它 有 两 个 状态 * 和 zs 
然 的 隐 机 年 阵 为 
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它 请 足 式 (11.4) 和 武 (11.5) 的 条 件 。 假 设 初始 条 件 是 ro = [二 “总 ] 、 由 式 (11.21) 我 们 发 现 
在 时 刻 ， = 1 状态 分 布 向 最 为 


区 1L-1 人 鲍 1.1 的 Madov 链 的 状态 转移 图 
才 高 随机 矩阵 卫 的 短 次 为 ” = 2，3，4, 我 们 有 
于 | 0.5625 
0.3750 0.6250 
0.4001 0.5999 
0.3999 0.6001 
0.4000 2 
0.4000 0.6000 
此 i=0.4000 和 交 =0.6000。 在 这 个 例子 中 ， 平 稳 分 布 的 收 化 基本 上 在 上 =4 次 选 代 就 完 
成 了 。 由 于 mm 和 mm 都 大 于 零 ， 两 个 状态 都 是 正常 返 的 ， 并 且 链 为 不 可 约 的 。 问 时 注意 它 是 
非 周期 的 ,这 是 因为 使 ( 产 ") 有 仙人 全 全 和 下放 此 我 们 得 出 结 
论 ， 了 网 11-1 所 示 的 Markov 链 是 遍历 的 。 国 





























例 11.2 考虑 随机 矩阵 具有 某 些 零 元 素 的 全) - 侠 L 
Markov 链 ， 如 
0 0 
工 工 工 ， 
P-|3 6 2 1 要 并 
3 工 
了 了 0 


该 链 的 状态 转移 图 由 图 11-2 描绘 。 医 11-2 例 11.2 的 Markov 链 的 状态 转移 网 


应 用 式 (11.27) 得 到 下 列 联 立 方程 组 : 

















1 3 1 1 古 工 
= 仁和 二 本 本 人 一方 到 二 下 而: 矶 = 而 二 人 下 


[到 ] 


554 
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解 关 于 称 ， 于 利生 的 方程 组 ， 我 们 得 
= 0.3953， 加 = 0.1395， mm = 0.4652 





这 个 给 定 的 Matkov 链 足 遍 廊 的 ， 它 的 平稳 分 布 由 于 ,mm 和 瑟 定 义 。 国 
状态 
状态 分 类 7 
在 所 太 材 料 的 基础 上 ， 我 们 可 以 对 状 一 下 
态 所 属 的 类 进行 小 结 ， 如 图 11-3 所 示 转 黎 常 返 
(Feller,1950; ieon-Gadin,1994)。 这 个 图 还 ， 一 
大 ep 
包括 状态 相关 的 长 期 行为 。 正 江 办 
细节 平衡 原则 一 人 本 =0 
式 (011.25) 和 式 (11.26) 仅仅 强调 数 信 四 电 厅 
mi 为 概率 。 式 (11.27) 是 关键 的 ， 因 为 不 1m 丙 四 = 机 im 个-dm am sm 


当中 -> 


可 约 的 Maqkov 链 必须 满 吓 它 ， 从 而 也 就 有 其 中 4 是 大 于 1 的 整数 
闻 稳 分 布 存 在 。 式 (11.27) 可 以 认为 是 一 阶 。。 败 iL3 Mka 链 的 鸭 态 分 类 及 它们 相 记 的 长 期 行为 
反应 动力 学 中 的 细节 平衡 原则 的 重新 陈 

述 。 细 节 平衡 原则 表明 ， 在 热平衡 中 任何 转移 的 发 后 率 等 于 对 应 的 逆转 移 的 发 后 率 ， 可 表达 
为 (Reif.1965) 








Tap，= To (11.28) 
为 了 导出 式 (11.27) 的 关系 ， 我 们 可 以 对 等 式 的 左边 进行 求 和 如 下 
补 w = 袜 作 ojm = = pr = 全 
在 等 式 的 第 二 行 中 我 们 应 用 了 细节 孕 衡 原则 ， 在 最 后 一 行 利 用 了 一 个 Markov 链 的 转移 概率 
满足 的 条 件 (参看 式 (11.1S)， 其 中 交换 了 “ 利 / 的 作用 ) : 


袜 w - = 1 对 所 有 1/ 
注意 细节 平衡 原则 意味 着 分 布 jr, | 是 一 个 平稳 分 布 。 
11.4 Metropolis 算法 


至 此 我 们 弄 清 了 Markov 链 的 构成 ， 我 们 将 应 用 它 构成 一 个 模拟 物理 系统 演化 到 热平衡 的 
随机 算法 。 这 个 算法 称 为 Metmopolis 算法 (Metpolis et al.,1953}。 它 是 Monte Caro 方法 的 一 种 修 
政 ， 在 早期 的 科学 计算 中 Monte Carie 方法 是 对 大 量 原子 在 给 定 温度 下 的 平衡 态 的 随机 模拟 。 

假设 随机 变量 系 表示 任 - Markor 链 在 时 刻 mn 的 状态 为 。 我 们 随机 生成 新 的 状态 和 
它 表示 芳 一 个 随机 变量 闷 的 一 次 实现 。 假 设 乍 成 这 个 新 状态 满足 对 称 条 件 ， 

PP = 区 1 和) = PR =m1 总 = 0) 
令 4 忆 表示 系统 从 状态 蕊 = x 到 状态 内 = 所 产生 的 能 量 差 。 如 果 能 量 差 为 负 ， 则 这 次 转 
移 导致 一 个 较 低 能 基 状 态 且 这 次 转移 被 接受 这 个 新 状态 也 就 接受 作为 算法 下 步 的 起 点 ， 即 
我 们 令 和 = 到。 反之 如 果 能 量 差 A 忆 为 正 ， 这 时 算法 以 概率 方式 进行 处 埋 。 首 先 ， 我 们 
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选择 一 个 在 单位 区 癌 [0. 避 上 均匀 分 布 的 随机 数 5。 如 果 < exp( - AE77) ， 其 中 了 为 操作 温 
度 ， 转 移 被 接受 日 冒 Y.., = 环 。 否 则 ， 转 移 被 拒绝 ， 置 系 ,, = 成 ; 即 旧 的 配置 被 算法 的 下 
一 步 重 新 利用 。 
转移 概率 的 选择 
对 任意 Matkov 链 ， 设 世 有 先 验 转移 概率 ， 记 为 r ， 它 满足 二 个 条 件 ， [5| 
1. 非 负 性 : rz0 对 所 有 (六 
2. 归 一 化 : 2 r = 1 对 所 有 
3. 对 称 性 : r = 习 ”对 所 有 (i 廊 
令 瑟 表示 Markor 链 在 状态 汪 ，i= 1，2，…， 天 的 平稳 态 慨 率 。 因 而 我 们 可 以 利用 已 定 
义 的 对 称 的 上 和 购 率 分 布 比 xyri 来 均 成 期 秘 的 转移 概率 (Beckemnan,1997) : 
(到 ) 对 于 忆 < 
Py = ， (1.29) 
对 于 又 >1 
为 了 确保 转移 概率 归 一 化 为 单位 1， 我 们 引信 无 转移 概率 的 附加 定义 ; 
严 =+o(1 -1-wn (11.30) 
其 中 是 移动 概率 ， 定 义 为 
mw = minf 1 到 } (11.31) 
惟一 尚 需 解 决 的 要 求 是 怎样 选择 比值 xm;。 为 满足 这 个 昌 求 ,我 们 选择 概率 分 布 使 得 
所 得 的 Markov 链 收敛 到 ,一 个 Gihhs 分 布 ， 表 未 为 
3 
这 时 概率 分 布 比 ri]x, 取 简 单 形式 





工 A7 
至 = el - 允 ] (1.32) 
其 中 A 志 = 瑟 - 玉 (11.33) [557 





利用 概率 分 布 比 可 以 排除 对 前 分 函数 Z 的 依赖 。 

根据 构造 ， 转 移 概 率 是 非 抽 的 且 归 整 化 为 单位 1， 如 式 (11.14) 和 式 (11.15) 的 要 求 。 进 
一 步 ， 它 们 满足 由 式 (11.28) 所 定义 的 细节 平衡 原则 。 这 个 定律 对 热平衡 是 一 个 充分 条 件 。 
为 了 说 明 满足 细节 平衡 原则 ， 我 们 给 出 下 列 的 考虑 ; 

情况 1: AE < 0。 人 很 设 从 状态 x, 转移 到 状态  ， 能 基 变 化 AE 为 抽 。 从 式 (11.32) 我 们 
发 现 赤 /rs > 1， 所 以 利用 式 (11.29) 得 到 


rp 
和 -afsa) -mn 





[5 
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因此 当 A <0 时 细节 平衡 原则 满足 。 
情况 2: A 忆 > 0。 假 设 从 状态 x 到 状态 沁 的 能 量变 化 AE 为 正 ， 这 时 我 们 发 现 (mryzr, ) 
<1, 利 用 式 (11.29) 得 到 








允 
Tt = 下 = 


利 TB = 而 妃 
这 里 又 看 出 细节 平衡 原则 得 到 满足 。 

为 了 完整 起见 ， 我 们 需要 指出 由 ry 表 示 的 先 验 转 移 概 率 的 使 用 。 这 些 转移 概 灾 事实 上 
是 Metopalis 算法 中 的 随机 步 的 概率 模型 。 由 前 面 给 出 的 算法 描述 ， 我 们 回忆 随机 步 后 面 图 
晨 机 次 策 。 因 此 可 以 得 出 结论 ， 利 用 通过 由 先 验 转移 概率 zy 在 式 (11.29) 和 式 (11.30) 定 义 的 
转移 概 闵 mw 和 平稳 概率 分 布 nm 对 Metropolis 算法 米 说 确实 是 正确 的 选择 。 

值得 注意 的 是 由 Metropolis 算法 产 牛 的 平稳 分 布 并 不 惟一 决定 Markov 链 。 平 稳 态 时 的 
Cihhs 分 布 也 可 以 利用 其 他 更 新 规则 而 不 是 Meuopolis 算法 的 Monte Cado 规则 产生 ; 例如 利 
由 Aekley et 引 .(1986) 提 出 的 Boltzmam 学 习 规 则 产生 ; 这 个 规则 将 在 11.7 节 中 讨论 。 


11.5 模拟 退火 


考虑 寻找 一 个 低能 量 系统 的 问题 ， 其 状态 由 - “个 Markov 链 排序 。 由 式 (11.11) 观 察 到 当 
温度 7 趋 近 于 零 ， 系 统 的 自 出 能量 王 趋 近 平均 能 基 < 刁 > . 由 玉 >< 二 > ， 我 们 观察 到 由 自由 
能 量 最 小 化 原 刚 ， 该 Markov 链 的 平稳 分 布 即 Gibhs 分 布 ， 当 了 ->0 时 塌 到 平均 能 其 < 巨 > 的 
全 局 极 小 点 。 换 句 话说， 序列 中 的 低能 状态 在 低温 时 受到 更 强 的 支持 。 这 些 观察 促使 我 们 提 
出 问题 : 为 什么 不 简单 地 应 用 Metropolis 算法 产生 大 量 的 代表 该 随机 系统 在 很 低温 度 下 的 构 
形 (Configaration)? 我 们 不 提倡 使 用 这 种 策略 是 因为 在 很 低温 度 下 Martkov 链 到 类 平 衡 的 收 伍 速 
度 特 别 慢 。 而 提高 计算 效率 更 好 的 方法 是 在 较 高 温度 运行 随机 系统 ， 这 时 达到 平衡 态 的 收敛 相 
当 快 ， 接 着 随 温度 的 精细 下 降 保持 系统 的 平衡 态 。 也 就 是 ， 我 们 使 用 两 个 机 关 成 分 的 组 合 : 

， 一 个 次 定 温度 下 降 速度 的 调度 表 

， 一 个 算法 一 如 Metropolis 算法 一 一 先 代 求解 每 个 调度 表 给 出 的 新 的 温度 下 的 平衡 分 

布 ， 这 时 利用 前 面 温度 时 的 最 终 状 态 作为 新 温度 时 的 起 始点 。 

我 们 刚才 提 到 的 两 步 格式 是 被 广泛 使 用 的 以 模拟 退火 巴 著 称 的 随机 松 弛 技术 的 精华 
(Kirkpatrick et al. ,1983)。 这 个 技术 的 名 字 是 类 比 物理 /化 学 中 的 退火 过 程 得 到 的 ， 在 物理 /化 
学 的 退火 过 程 中 ， 我 们 从 高 温度 开始 退火 过 程 ， 接 着 慢 慢 降低 温度 同时 保持 热平衡 。 

模拟 退火 最 初 的 目标 是 寻找 刻 划 复杂 大 系统 的 代价 函数 的 全 局 极 小 点 ”。 正 基因 为 如 
此 ， 它 提 伐 “个 求解 非 凸 最 优化 问题 的 有 力 工具 ， 这 由 下 面 的 简单 想法 所 导致 ， 

当 优化 一 个 非常 复杂 的 大 系统 ( 即 具 有 许多 自由 度 的 系统 ) 时 不 要 求 总 是 下 降 而 是 试图 要 
求 大 部 分 时 间 在 下 降 。 
模拟 退火 在 两 方面 和 传统 的 迭代 优化 算法 不 同 : 

。 算法 不 会 陷 人 局 部 最 小 ， 因 为 当 系统 在 非 零 温度 上 运行 时 脱离 局 部 最 小 总 是 可 能 的 

* 模拟 天火 是 自 适 应 的 ， 在 高 温 时 看 见 系统 的 终 态 的 大 致 轮 廊 ， 而 它 的 具体 细节 在 低 

温度 时 才 呈 现 出 来 。 
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退火 进度 表 
如 前 面 提 到 的 ， 模 拟 姑 火 过 程 的 基础 是 Metropolis 算法 ， 其间 温度 7 慢 提 下 降 。 也 就 是 
说 ， 温 度 了 起 调节 参数 的 作用 。 假定 温度 下 降 得 不 比 对 数 更 快 ， 则 模拟 退火 过 程 将 收 倒 于 
-个 其 有 最 小 能 量 的 构 形 。 遗 憾 的 是 这 种 退火 进度 太 慢 了 ~ 一 慢 得 不 切实 用 。 实 际 上 ， 我 们 
必须 求 渚 于 算法 的 渐进 收敛 的 有 限时 间 还 近 ， 这 种 逼近 所 付出 的 代价 是 算法 不 调 以 概率 1 保 , 开 | 
证 找到 全 局 最 小 点 。 然 而 算法 的 和 逼 近 结 果 在 许多 实际 应 用 上 能 产 竺 近似 最 优 解 。 
为 了 实现 模拟 退火 算法 的 有 限时 间 逼 近 ， 我 们 必须 设 定 -- 系 列 控制 算法 收 人 的 参数 ， 这 
些 参数 组 合成 所 谓 的 退火 进度 表 或 冷却 进度 表 ， 退 痰 进度 表 设 定 一 个 温度 的 有 限 序列 值 ， 以 
及 每 一 温度 值 下 有 限 的 转移 党 试 的 次 数 。Kirkpatrick et al.(1983) 给 出 的 退火 进度 表 的 感 兴 值 
的 参数 设 定 如 下 F : 
” 湿度 的 初 冶 值 。 温 度 的 初始 值 了 选 得 足够 高 使 得 所 有 提出 的 转移 实际 都 能 被 模拟 退 
火 算法 所 接受 。 
* 温度 的 下 降 。 一 般 地 说 ， 冷 却 是 按 指 数 形式 完成 的 ， 并 旦 温度 值 的 改变 量 都 很 小 。 
特别 吕 ， 下 降 函 数 定义 为 


加 


To 《11.34) 
其 中 小 于 但 接近 于 1。a 的 典型 值 介 于 0.8 和 0.99 之 问 。 对 每 一 温度 ， 有 足够 的 转 
移 的 党 试 ， 使 得 平均 每 次 实验 有 10 次 转移 被 接受 。 
， 温度 的 最 后 值 。 如 果 在 三 次 相连 的 温度 下 没有 得 到 预期 的 接收 次 数 ， 则 系统 被 冻结 
及 退火 停止。 
后 一 个 标准 可 以 改进 ， 要 求 接受 率 小 于 一 预定 值 (Johrson et al. ,1989)， 而 接受 率 定义 为 转移 
获 受 的 次 数 除 以 提出 转移 的 次 数 。 
模 氢 退 火 用 于 组 合 优化 
模拟 退火 特别 适用 于 解 组 合 优化 问题 。 组 合 优 化 的 目标 是 针对 有 很 多 可 能 解 的 有 限 离散 
系统 ， 最 小 化 它 的 代价 琢 数 。 本 质 上 讲 模拟 退火 利用 Metropolis 算法 通过 多 粽子 物理 系统 和 
组 合 优化 问题 间 的 类 比 产生 一 系列 解 。 
在 模拟 退火 电 ， 我 们 把 式 (11.5) 的 Gibbs 分 布 中 的 能 量 已 解释 成 为 数值 的 代价 ， 而 温度 [56 
了 解释 为 控制 参数 。 在 组 台 优 化 问题 中 对 每 一 构 形 赋 下 一 数值 的 代价 以 描述 这 个 特殊 的 构 形 
和 解 的 差异 。 模 拟 退 火 程 序 中 下 一 个 句 机 考虑 的 问题 是 如 何 确认 构 形 和 从 已 有 构 形 以 局 部 方 
式 产生 新 的 构 形 。 这 就 是 Metopolis 算法 发 挥 作用 的 地 方 . 因此 我 们 概括 统计 物理 的 术语 和 
组 合 优化 术语 之 同 的 关系 如 表 11-1(Beckerman, 1997 ) 
表 11-1 统计 物理 与 组 会 优化 之 间 的 对 应 


























统计 物理 纽 全 优化 
样 末 问题 实例 
状态 ( 构 形 ) 构 形 
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多 度 控制 参数 
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11.6 _ Gibbs 抽样 


类 似 Metropolis 算法 ，Gibbs 抽样 器 # 生成 -一 个 Markov 链 ， 它 以 平衡 分 布 作为 Cibbs 分 布 。 

但 是 Cihbhs 抽样 器 的 转移 概 浆 是 非 平稳 的 (Geman and Geman,1984)。 存 最 后 的 分 析 电 ， 
关于 Cibhbs 抽样 和 Metropolis 算法 的 选择 取决 于 其 体 问题 的 技术 细节 。 

为 了 继续 描述 这 个 搬 样 格式 ， 考 嵌 一 个 关 维 的 随机 向 量 刁 ， 几 分 量  ，1，……， 有 也 
构成 。 假 定 在 给 定 习 的 其 他 分 量 时 我 们 知道 忌 的 条 件 分 布 ， 8 = 1，2，…， 大 。 我 们 希望 问 
的 问题 是 : 对 任何 直 ， 怎 样 获得 随机 变量 史 的 边缘 密度 的 数值 估计 。 对 随机 向 量 X 的 每 个 
分 其 ,在 已 知 买 的 其 他 分 基 值 的 条 件 下 ，Gobpbs 抽样 器 对 它 的 条 件 分 布 产 和 一 个 值 。 特 别 
地 ， 从 任意 构 开 [zi(0) ,xz(0)， (0)] 开 始 ， 我 们 在 Cihbbs 抽样 的 第 一 次 迭代 时 做 下 列 采 
样 : 

xf(1) 是 在 已 知 za(0)，x(0)，…，xx(0) 时 由 和 的 分 布 产 生 的 采样 。 

和 (1) 是 在 已 知 zf1)，2(0)，…， 世 (9) 时 由 半 的 分 布 产 后 的 采样 。 





条 人 昌 是 在 已 知 2 全， 区 (1D)，arr(00)，…， 队 (0) 时 由 总 的 分 布 产 牛 的 采样 。 


你 (1 是 在 已 知 2 (0)，xa(U)，…， 拓 xD 时 由 生 的 分 布 产生 的 采样 。 
在 第 一 次 欠 代 和 其 他 的 每 次 抽样 闪 代 中 我 们 用 这 种 方式 进行 处 理 。 以 下 两 点 需要 特别 注 











1 随机 向 量 习 的 每 个 分 量 是 以 自然 序列 “访问 "的 ， 每 次 选 代 产 生 总 共 天 个 新 的 变量 


2. 对 于 有 =2，3，…， 天 ， 在 对 五 采样 新 值 时 直接 利用 分 量 反 -的 新 的 值 。 

由 这 个 讨论 我 们 看 到 Gibbs 采样 是 和 代 的 自 适 应 格式 。 利 用 它 进行 = 次 迭代 后 ， 我 们 得 
到 天 个 变化 量 : 站 Ca)， 和 (on)，…， 了 (aa)。 在 相当 温和 的 条 件 下 ， 以 下 三 个 定理 对 
Cibbs 抽样 成 立 (Geman and Geman ,1984;Celfand and Smith,1990) : 

1. 收 笋 定理 ,对 下 = 1，2，…， 天 。 当 中 趋 于 无 穷 大 时 ， 随 机 变量 到 (P) 依 分 布 收敛 于 
总 的 真实 概率 分 布 ; 也 就 是 说 ， 

Ji 已 和 1 和 (0)) = Fo(xz)， 天 = 2 天 (11.35) 

其 中 jx (z) 为 冯 的 边缘 概率 分 布 丕 数 。 
事实 上 ， 在 Geman and Geman(1984) 中 证 明了 更 强 的 结果 。 特 别 地 ， 不 要 求 随机 向 大 的 每 
个 分 其 以 月 然 顺 序 被 重复 访问 ， 任 意 的 访问 方式 只 要 不 依赖 于 变量 的 值 旦 和 的 每 个 分 量 被 
“无 限 地 经 常 "访问 ， 则 Gibbs 抽样 收敛 性 仍 成 立 。 

2. 收效 速 度 定理 。 随 机 变量 1i(n)，2(n)，…。，Ntm) 的 联合 概率 分 布 以 口 的 几何 级 
数 速 度 收效 于 瑟 ， 瑟 ，…， 如 的 联合 分 布 函数 
这 个 定理 假设 X 的 分 量 以 自然 顺序 访问。 但 是 当 使 用 以 任意 的 但 无 限 地 经 常 沪 问 时 ， 这 样 
收敛 速 度 希 要 较 小 的 调整 。 
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3. 遍历 定理 ， 对 任何 例如 对 于 随机 灾 量 站 ， 瑟 ，…， 下 的 可 测 画 数 上 ， 它 的 期 望 丰 
在 ， 我 们 有 
In EC 一 0.36) 
me = 
网 概率 1( 子 几 手 肖 定 ] 实 现 。 
遍历 定理 告诉 我 们 怎 梯 利用 Cibbs 采样 的 输出 获得 所 期 望 的 边缘 密度 的 数值 估计 。 
在 Baliamann 机 中 使 用 Gibbs 采样 对 有 关 隐 藏 神经 下 的 分 布 进行 采样 ;这 种 随机 机 器 将 在 
下 一 节 讨 论 ， 对 于 使 用 一 值 单元 的 随机 机 器 ( 即 Botmann 机 ) 来 说 , 值得 注意 的 是 Cibbs 采样 
正好 和 Metopolis 算法 的 -个 变 体 完全 一 樟 。 在 Meunpalis 算法 的 标准 形式 里 我 们 以 概率 1 下 
出 ， 相 反 的 在 Metopoalis 算法 的 另 一 个 形式 里 ， 我 们 以 1 或 能 量 差 的 指数 ( 即 上 山 规则 的 补 
充 ) 的 概率 下山。 换 名 话说 ， 如 果 一 个 变化 降低 了 能 量 马 或 下 没有 变化 时 ， 则 这 个 灾 化 被 接 
受 ; 如 果 变 化 升 高 了 能 量 ， 它 是 以 epp( - AE) 的 概率 被 楼 受 ， 否 则 蕉 拒绝 而 以 旧 的 状态 重 
复 (Neal,1993) - 








11.7 Boltzmann 机 


Boltzmamn 机 是 由 随机 神经 元 组 成 的 随机 机 器 ， 随 机 神经 元 如 第 1 章 所 讨论 的 那样 ， 以 
概率 方式 取 两 个 可 能 状态 之 一 。 这 两 个 状态 可 以 指定 为 + 1， 表 示 * 升 "状态 ， 指 定 为 - 1 表 
示 “ 关 "状态 ， 或 分 别 用 1 和 0 表示 。 我 们 将 采用 前 面 的 记号 。Holtzmann 机 男 一 个 突出 的 特征 
就 是 它 的 神经 元 间 使 用 对 称 的 突 触 连接 ， 这 种 形式 的 突 侧 连接 也 有 统计 物理 方面 的 考虑 。 

Boltzmann 机 的 随机 神经 元 分 成 两 部 分 功 
能 组 ， 如 图 11-4 所 未 为 可 见 部 分 和 隐藏 部 
分 。 可 见 神 经 元 上 提供 网 络 和 它 运 行 环境 之 
间 的 一 个 界面 。 在 网 络 的 训练 阶段 ， 所 有 上 吕 
匈 神 于 元 都 被 系 制 在 环境 所 诀 定 的 特定 状态 。 
另 一 方面 ， 隆 藏 神 经 元 总 是 自由 运行 的 ， 它 
们 用 来 解释 环境 输入 向 量 包 含 的 固有 约束 。 
隐藏 神经 元 通过 捕获 箱 制 向 量 中 的 涡 阶 统计 
相关 来 完成 这 项 任务 。 这 里 所 叙述 的 网 络 代 
表 Boltzmann 机 的 一 种 特殊 情况 。 它 可 以 看 成 
生 对 某 确定 概率 分 布 建 模 的 无 监督 学 习 程序 ， 图 11-4 Bohamam 机 体系 结构 图 ，K 为 可 见 神 
该 确定 概率 分 布 决定 于 在 可 见 神经 元 上 以 合 经 元 数目 ，7 为 隐藏 神经 元 数 日 
适 的 概率 条 制 模式 。 这 样 做 ， 网 络 能 起 到 模 
式 完 成 {pattem completiom) 的 作用 。 特 别 地 ， 当 -部 分 携带 信息 的 向 其 箱 制 在 可 见 神 经 元 的 子 
集 上 ， 如 果 网 络 已 经 恰当 地 学 会 了 训练 分 布 ， 这 时 网 络 能 够 对 一 下 的 可 见 神经 元 网 络 给 出 它 
们 的 恰当 的 值 ， 起 到 模式 完成 的 作用 (Hinton,1989 )。 

Boltmmann 机 学 习 的 主要 目的 旦 产生 一 个 神经 网 络 ， 根 据 Boltzamanm 分 布 对 输入 模式 进行 
正确 的 娃 模 。 在 这 种 学 习 的 应 用 中 ， 作 了 此 个 假设 ; 

。 每 个 环境 输入 向 量 (模式 ) 持 续 足 够 长 的 时 间 ， 人 多 许 网 络 达 到 热平衡 。 

。 环境 向 基 箱 制 在 网 络 可 见 单元 上 的 次 序 是 没有 任何 结构 的 。 
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一 组 特定 的 突 触 权 值 当 它 导 出 的 可 见 单 无 状态 的 颁 率 分 布 ( 当 网 络 自 册 运行 时 和 可 昂 单 
元 被 环境 输入 向量 所 箱 制 时 的 状态 概率 分 布 完全 一 样 ， 我 们 说 它 构造 了 环境 结构 的 “个 完整 
模型 。 一 般 情 况 下 ， 除 非 路 藏 单元 数目 是 可 见 单元 数 日 的 指数 ， 不 可 能 得 到 完整 模型 。 但 
是 ， 如 果 环 境 有 规则 的 结构 ， 网 络 利用 隐藏 单元 捕获 这 些 规则 ， 这 时 利用 较 小 的 能 处 理 的 隐 
藏 神经 元 数目 可 以 对 环 境 取得 -个 好 得 匹配 。 











Bolzmann 机 的 Gibbs 抽样 和 模拟 退火 


令 Xx 表 示 Boltzmann 机 的 状态 向 基 ， 它 的 分 量 ”* 表示 神经 元 i 的 状态 。 状 态 工 代表 随机 
癌 莉 习 的 - -次 实现 。 从 神经 元 守 到 昼 经 上 7 的 突 触 连接 记 为 ww ， 满 足 ， 
tn = 2 对 所 有 (7 ) 《11.37) 
和 2 =0 对 所 有 上 (11.38) 
式 (11.37) 描 述 对 称 人 性 而 式 (11,38) 强 调 无 自 反 馈 。 偏 置 可 以 利用 一 个 答 出 乔 为 + 奔 的 虚 节 点 
经 元 六 对 所 有 六 的 连接 权 值 wo 表示 。 
类 似 于 热 动 力学 ，Boltizmmamn 机 的 能 量 可 定义 为 呈 
Ex) = -二 习 站 wm 《11.39) 


利用 (11.5) 的 Gibhs 分 布 ， 我 们 可 以 定义 网 络 (假定 处 在 湿度 了 7 的 平衡 态 ) 在 状态 x 的 概率 如 
下 ; 





虹 


P(X==_ 二 eof - 呈 ) (11.40) 





其 中 2 为 剖 分 函数 。 
为 了 简化 表示 ， 定 义 单 个 事件 4 及 联合 事件 互 和 C 如 下 : 

4 有 = 古 ， 吾 :| 下 = 三 乓 关 六 CC: 下 = 和 
实际 上 ， 联 合 事件 如 排斥 4， 而 联合 事件 C 包括 4 和 召 。 如 的 概率 是 C 关于 4 的 边缘 概率 。 
因此 ， 利 用 式 (11.39) 和 式 (11.40)， 我 们 可 写作 


PCC) -= PC4,B) = 冯 (下 习 on 《1.4 











P(B) =- 习 P(4,B) = 十 二 于 忆 wna] 《11.42》 


在 式 (11.4) 和 式 (11.42) 中 的 指数 可 以 表示 成 两 项 之 和 ，_- 项 御 。 有 关 而 另 一 项 与 无 关 。 
包含 有 zx 的 项 为 


世 
球 守 “ 
相应 地 ， 给 定 召 ， 置 羡 =z= +1， 我 们 可 以 给 生出 4 的 条 件 概率 
已 (4, 召 ) 1 
P(4 1 召 ) = (B) = 





于 十 ep 一 好 习 ozx] 


3 


也 就 是 可 写成 PE = 三 waj (11.43) 
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其 中 鸭 它 变 元 的 sigmoid 困 数 ， 卜 示 为 

on) = 一 一 (1.44) 
入 意 z 虽然 在 + 和 -TI 问 变化 ,但 当 ， 
充分 天时， 整个 变 晶 " = 拉 可 1 
在 - 和 + m 之 问 变 化 ， 如 图 11-5 所 描 P 
绘 。 同 时 注意 ， 在 推导 式 (1.43) 时 ， 不 
需 痢 分 出 数 7， 这 是 高 度 期 望 的 ， 因 为 对 
于 非常 复杂 的 网 络 直接 计算 2 是 不 现实 
的 ， 


























利用 Cibbs 抽样 老 示 联合 分 布 P(4， 0 ” 
8)。 基 本 上 ， 如 11.6 节 所 般 释 的 那样 ， 
这 个 蝴 机 模拟 开始 时 给 网 络 赋 艺 任 一 状 
态 ， 神 经 元 以 它们 的 自然 顺序 依次 重复 访问 ， 租 次 访问 ， 选 择 一 个 神经 元 ， 根 据 其 他 神经 元 
的 值 确定 该 神经 元 状态 新 值 的 选择 和 概率。 假定 这 个 随机 模拟 进行 足够 长 的 时 间 ， 则 网 络 将 达 
测 在 温度 了 下 的 平衡 。 

遗 憾 的 是 到 达 热 平衡 的 时 间 可 能 非常 长 。 为 了 克服 这 个 困难 ， 如 同 在 41.5 节 所 解释 的 
那样 ， 对 有 限 温 度 序 列 ， 有 也，…，Yu， 便 用 模拟 退火 。 特 别 地 ， 温 度 被 初始 化 为 一 个 
高 的 值 7， 因 此 可 迅速 到 达 热 平衡 然后， 温度 了 逐渐 降低 至 最 后 值 mW ， 这 时 神经 元 状态 
将 (有 希望 ) 达 到 它们 的 边缘 分 布 。 


Bottzmann 学 习 规则 


因为 Bolzmann 机 是 一 种 随机 机 器 ， 它 自然 依赖 于 用 概率 论 评价 其 性 能 。 这 种 标准 之 一 
是 似 然 虽 数 思 。 在 此 基础 上 ， 根 据 最 大 似 然 原则 ，Boltamanmn 学 习 的 目标 是 最 大 化 似 然 蝴 数 
或 等 价 的 对 数 似 然 函 数 。 

令 g 表示 感 兴趣 的 概率 分 布 抽样 所 组 成 的 训练 样本 。 假 设 它们 都 是 二 值 的 。 训 练 样本 人 允 
许 重复 ， 但 必须 和 它们 发 后 的 概率 成 比例 。 令 状态 向 量 x 的 子 集 x 表示 可 见 神 经 元 状态 。 
向 量 x 的 剩余 部 分 z% 琴 示 隆 藏 神经 元 的 状态 。 状 态 向 量 x，x 和 区 分 别 表示 随机 向 量 习 
筷 和 区 的 实现 ，Boitzmann 机 的 运行 分 成 两 个 阶段 

， 正 向 阶段 。 此 时 网 络 在 稍 制 坏 境 下 ( 即 在 训练 集 g 的 直接 影响 下 ) 运 行 - 

，。 负 向 阶段 。 在 第 二 阶段 ， 网 络 允 许 自由 运行 ， 因 此 没有 环境 输入。 

对 整个 网 络 给 定 突 触 间 权 值 w， 可 兄 神 丝 元 状态 为 & 的 概率 是 P(X = 呈 )。 训 练 集中 
包含 许多 可 能 值 x ， 假 定 它们 是 统计 独立 的 ， 总 体 的 慨 率 分 布 是 析 因 分布 Llue 了 尸 ( 和 X = 
乓 )。 为 了 写 出 对 数 似 然 巩 数 5(w)， 对 析 因 分 布 取 对 数 是 将 w 看 作 未 知 的 参数 向 量 。 我 们 
因此 可 以 写成 


il-5 sigmoid - 形 遇 数 PCv) 





























ZL(Ww) = log]| P(X = 天 ) = > logP(X = xu) (11.45》 
二 ET 
为 了 通过 能 量 机 数 形成 边缘 概率 P(X。 = xs ) 的 表达 式 ， 利 用 以 下 两 点 : 
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， 由 式 (11.40)， 令 率 P(X= 等 于 了 emp( - BC/7)。 
， 册 定义， 状态 向 量 x 是 局 于 可 见 神 经 元 的 状态 x 和 属于 隐藏 神 经 元 的 状态 总 的 联 立 
组 含 。 因 此 可 见 神 经 元 处 于 状态 和 % 与 任何 部 的 概率 为 





PCX =- < - 支 忆 en(- 29) (HL46) 
其 中 随机 向 最 和. 是 和 的 子 集 ， 剖 分 函数 了 全文 为 (参看 式 (11.6) 
2 - 忆 eo(- < 多 ) 41.47) 
因而 将 式 (11.46) 和 (11.47) 代 人 式 (11.45)， 得 出 对 数 似 然 函数 所 期 望 的 表达 式 ; 
Lw) = 马 (e 习 el- -2oo(- 2 《1.48) 


对 w 的 依赖 包含 在 能 量 函 数 EC 中， 如 式 (11.39) 所 示 。 
依据 式 (11.39)， 求 2Cw) 对 作 的 微分 ， 经 过 一 些 运 算 后 我 们 得 到 下 列 结 昌 (参看 习题 
11.8): 





50 = 到 ( 瑟 ?09 = 而 | 忆 = 瑟 )zx 一 之 PCX = = 3)z0) 《11.49) 
加 丙 E 汪 
为 了 简单 起 见 ， 我 们 引入 两 个 定 X: 
攻 =< > PP( 和 = 贡 | 臣 = 天 )oxi CH.50) 
了 生 
和 本 =< si = PE= 菩 ao 《11.51) 
了 了 


从 宽松 意义 上 我 们 可 以 将 第 一 项 平均 值 w; 看 成 点 火 率 的 平均 ， 或 神经 元 ; 和 /的 状态 之 间 的 
相关 和 性， 此 时 网 络 在 夭 制 下 运行 或 者 说 处 于 正 向 阶段 。 类 似 地 ， 第 二 项 均值 pr 可 看 成 神经 
元 ! 和 7 的 状态 间 的 相关 性 ， 此 时 网 络 自由 运行 或 者 说 是 处 于 负 向 阶段 。 利 用 这 些 定义 ,我 
们 可 以 简化 式 (11.49) 如 下 : 

















= 末 ( 人 本) (11.52) 


Boltzmann 机 学 习 的 目的 是 最 大 化 对 数 似 然 图 数 (w)， 我 们 可 以 利用 梯度 下 降 法 达到 这 一 
点 ， 写 成 





Am =s- = 如 中 一 后) 《11.53) 


其 中 ?是 学 习 率 参数 ; 它 通过 s 和 运行 温度 了 定义 为 
3= 车 (11.54) 
式 411.53) 的 梯度 下 降 规 则 称 为 Boltzmann 学 习 规则 。 这 里 所 叙述 的 学 习 是 集中 完成 的 ; 即 突 
和 触 权 值 的 改变 是 在 整个 训练 样本 集 都 给 出 的 情况 下 进行 的 。 
根据 这 个 学 习 规 则 ，Boltzmmann 机 的 突 触 权 值 的 调整 仅 使 用 两 个 不 同 条 件 下 的 局 部 可 观 
测量 ， 这 两 个 不 同 条 件 为 (1) 箱 制 运行 , 和 (2) 自 由 运行 。 这 个 Boltzmann 学 习 的 重要 特征 航 大 
地 简化 了 网 络 结构 ， 特 别 在 处 理 大 型 网 络 时 更 是 如 此 。 另 一 个 重要 特征 是 神经 元 和 /六 之 间 
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的 突 触 权 值 的 调整 规 列 是 独立 于 神经 元 的 可 见 与 查 的 ， 林 管 它们 可 见 或 都 不 可 见 ， 这 一 点 可 
能 令 人 吃 恢 。RBoltzmamn 学 习 的 所 有 这 些 有 有 益 的 特征 归功 于 Hinten and Sejnowskj( 1983, 1986) 的 
关键 件 见 解 ， 它 位] 将 Boltzmann 村 的 抽象 数学 模型 和 神经 元 网 络 在 以 下 两 点 上 联系 起 来 : 

，。 描述 一 个 昼 经 元 的 随机 性 的 Gibhs 分 布 。 

*” 定义 Cibbs 分 布 的 茹 于 统计 物 胡 学 的 能 量 郑 数 (11.39)。 

从 学 习 观 点 和 看， 组 成 Bolzmann 学 习 规 则 的 式 (11.53) 的 琴 项 具有 相反 的 意思 。 我 们 可 以 
把 相应 于 网 络 御 制 条 件 下 的 第 一 项 从 本 质 上 看 作 Hecbb 学 习 规 则 ， 而 把 相应 于 网 络 白 由 运行 
下 的 第 二 项 看 作 非 学 习 项 或 道 忘 项 。 傅 实地，Boltrmann 学 习 规 则 代表 重复 遗忘 和 再 学 习 规 
则 的 推广 ， 这 个 工作 是 Pippel and Krey(1987) 对 无 隐藏 神经 元 的 对 称 网 络 所 撒 述 的 。 
然 Holtzmann 机 学 习 算 法 要求 隐藏 神经 元 知道 被 制 激 和 睛 由 活动 之 间 的 善 异 ， 并 月 假 
定 有 - 个 (了 赂 藏 的 ) 外 部 网 络 向 隐藏 神经 元 发 信号 告知 Boltmmann 机 正 被 刺激 ， 我 们 就 有 -个 
注意 机 制 的 原始 形式 (Cowan and Sham,1988)， 这 - -点 倒是 很 有 趣 的 。 


负 向 阶段 的 需求 及 其 陷 含 的 意义 


正 向 和 负 向 阶段 的 联合 使 用 稳定 Boltamnann 机 突 触 权 值 的 分 布 。 这 种 要 求 可 以 用 另外 的 
方式 进行 说 明 。 真 观 上 讲 ， 我 们 可 以 说 在 Reltzamann 学 习 过 程 中 对 正 向 和 负 向 阶段 的 要 求 归 
因 于 神经 元 状态 向 量 的 慨 率 诊 达 式 中 的 前 分 国 数 2 的 出 现 。 这 样 涪 暗 示 着 能 景 空间 的 最 速 

下 降 方 向 和 概率 空间 的 最 速 下 降 方向 不 一 致 。 实 际 上 ， 学 习 过 程 的 负 向 阶段 需 村 考虑 到 这 种 
差异 (Neal, 1992) 、 

在 Bottzmann 学 习 中 使 用 负 向 阶段 有 两 个 主 归 缺点; 

1. 增加 计算 时 间 。 在 正 向 阶段 ， 一 些 神经 元 由 外 界 环境 所 第 制 ， 而 在 负 向 阶段 ， 所 有 
者 经 元 都 自由 运行 。 相 应 地 ，Boltamann 机 的 随机 模拟 时 间 增 加 了 。 

2. 对 统计 误差 郝 感 。Boltzmann 学 习 规则 涉及 两 个 平均 相关 性 之 问 的 差异 ,一 个 相关 性 
计算 正 向 阶段 而 另 一 个 计算 负 向 阶段 。 当 这 两 个 相关 性 相似 时 ， 抽 样 噪声 的 出 现 使 得 它们 的 
差异 具有 上 更 多 的 噪声 。 

我 们 可 以 利用 sigmoid 信和 度 网 络 消除 Boltzmann 机 的 这 个 缺点 ， 在 这 类 新 的 随机 机 器 里 ， 
对 学 习 过 程 的 控制 是 利用 均值 而 不 是 负 向 阶段 。 

11.8 sigmoid 信和 度 网 络 

sigmoid 信和 度 网 络 或 logistic 信 度 网 络 由 Neal 在 1992 年 所 发 展 的 ， 它 主要 是 为 了 寻找 一 种 
随机 机 器 ， 它 既 享 有 Boltzmann 机 能 学 悦 什 何 二 值 硫 率 分 布 的 能 力 ， 但 不 需要 Boltzmnam 机 学 
习 过 程 的 负 向 阶段 。 这 个 日 标的 达到 ， 是 用 有 向 连接 构成 的 无 转 图 代替 Boltmnann 机 的 对 称 
连接 。 特 别 地 ， 一 个 sigmoid 信 度 网 络 由 二 值 随机 神经 元 的 多 层 结构 组 成 ， 如 岁 11-6 所 示 。 
机 器 具有 无 圈 的 性 质 使 得 概率 计算 简单 。 龙 其 是 ， 类 似 于 Boltzmann 机 ， 网 络 利用 式 (11.43) 
的 sigmoid 尊 数 计算 - -个 神经 元 受到 它 自己 的 诱导 局 部 域 刺激 时 的 条 件 概率 。 


sigmoid 信 度 网 络 的 基本 性 质 


令 向 量 习 由 二 值 随机 变量 而 ， 移 ，…， 忆 组 成 ， 它 定义 由 六 个 随机 神经 元 构成 的 -一 
个 sigmoid 信和 度 网 络 。 在 习 中 的 元 素 怠 的 双亲 记 为 
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罚 11-6 sigmoid 信和 诬 阅 络 结构 图 


也 就 是 说 ，pa( 蕊 ) 是 随机 向 量 习 满足 下 式 的 最 小 子 集 ; 

中 (有 = 和 | 和 = = pa( 马 )) (11.56) 
sigmoid 信 度 网络 的 一 个 重要 优点 就 是 它 能 清楚 揭示 输入 数据 的 固有 概率 模型 的 条 件 依赖 。 
特别 地 ， 第 / 个 神经 元 被 激发 的 概率 出 sigmoid 函数 

已 ( 石 = 呈 1pa 人 天)) = (学 王 on] (1.57) 
定义 (参看 起 (11.43))， 其 中 由 是 内 神经 元 ; 到 禄 经 元 ) 的 突 甬 权 值 ， 如 图 11.6 所 示 。 即 是 
条 件 概率 已 (总 = 5 1pa( 瑟 )) 仅 依赖 于 pa( 克 ) 的 输入 加 权 和 。 因 此 , 式 (11.57) 提供 信 度 在 网 
络 中 传播 的 基础 。 
在 siemoid 信 度 网 络 中 计算 概率 ， 以 下 两 点 值得 注意 : 
Iaor =0， 对 所 有 不 属于 pa( 马 ) 的 工 
2. 由 =0， 对 所 有 ;zz 
第 一 点 由 双亲 的 定义 可 得 。 第 -点 由 sigmoid 信 度 网 络 是 有 向 无 图 图 这 个 事实 可 得 。 
正如 名 字 所 上 暗示，sigmoid 信 度 网 络 属于 在 文献 (Pearl,1988) 中 被 广泛 研究 的 一 类 信和 度 网 
殉 ] 络 j。 它 的 随机 运行 比 Boltzmann 机 稍微 复杂 一- 些 。 然 而 基于 局 部 可 用 信息 ， 它 们 确实 可 以 
利用 概率 空间 的 梯度 上 天 学习。 


sigmoid 信和 度 网 络 的 学 习 


令 5 表示 以 感 兴趣 的 概率 分 布 抽取 的 训练 尽 本 集 。 假 定 每 一 个 样本 都 是 二 值 的 ， 表 示 … 
定 的 属性 。 训 练 样本 是 允许 重复 的 ， 重 复 的 次 数 与 已 知 的 特定 属性 组 合 通常 发 生 的 概率 成 正 
比 。 为 了 对 从 其 中 抽 瞩 9 的 分 布 进行 建 模 ， 我 们 作 如 下 处 理 : 

1. 用 一 个 状态 向 量 x 的 大 小 决定 网 络 的 大 小 。 

2. 选择 状态 向 量 的 一 个 子 集 ， 记 为 尺 ， 代 表 训 练 时 的 属性 ， 即 玉 代表 可 见 神经 元 ( 即 证 
据 节 点 ) 的 状态 向 量 。 













































































幽 此 了 部 矿 力 党 艇 大 如 总 及 而 岂 殉 晤 过 这 475 


3. 用 状态 向 晶 x 的 剩余 部 分 ， 记 为 草 ， 定 义 为 隐藏 神经 元 (如 那 些 我 们 没有 瞬时 值 的 计 
竺 节点 ) 的 状态 向 量 、 

对 于 给 定 的 状态 向 芋 x， 一 个 sigmoid 信 度 网 络 的 设计 高 度 依 融 于 可 见 神经 元 和 隐藏 神经 
死 的 排列 方式 。 央 此 可 见 神经 元 和 不 可 见 神经 元 的 不 同 排 剂 会 导致 不 同 的 构 形 。 

正如 Boltzmann 机 一 样 ， 我 们 导出 sigmoid 信和 度 网 络 所 期 望 的 学 习 规则 时 仍然 最 大 化 对 数 
伺 然 晒 数 ， 而 对 数 似 然 因 数 可 出 训练 集 9 计算 可 得 。 由 式 (11.45) 定 义 的 对 数 似 然 画 数 F(w) ， 
为 表达 方便 重 写 如 下 : 























LOW) = > logP(X = 避 ) 
工人 


其 中 w 为 网 络 的 窒 俺 权 值 向 量 ， 作 为 未 知 的 处 理 。 属 于 可 见 神 银元 的 状态 向 量 六 是 随机 疝 
量 屏 .好 一 次 实现 - 令 好 赤 示 亚 的 第 大 个 元 素 ( 即 从 神经 元 ;到 神经 元 /的 突 触 权 值 )。 对 
ECw) 求 的 钱 信 我 们 有 


2 =- 吕 1 ?POCO = 的 ) 
5 

















下 一 步 我 们 注意 下 列 两 个 概率 关系 : 第 一 个 关系 
P(X =xX) = 六 PRX= (xm)) = P(X= 旭 (11.58) 
而 本 
中 随机 向 量 和 属于 整个 网 络 ， 而 状态 向 量 x= (z， 苑 ) 是 它 的 次 实现 。 第 二 个 关系 
(和 = ) = P( 和 =XIR =)P(X =x) (11.59) 





这 个 关系 定义 联合 事件 和 = x=《，z) 的 概率 。 
根据 这 两 个 关系 ， 我 们 可 以 重新 定义 偏 导 数 95E(w)7a 训 的 等 价 形式 : 
PK = xf =x)apP(X=z 





























3 (1.60) 
根据 式 (11.43 我 们 可 扫 成 
PK = = ||e( 季 闷 om] 《011.60) 
其 中 e(.) 为 sigmoid 函数 。 因 此 可 妇 成 
1 3P(X = 了 0) 虽 
FREE 何人 于 5 和 bgP(GX = x) = = 末 忆 pey eg 学 忆 o) 
1 1 区 
= 厅 3 一 了 了 2 
和 在 到 3 








中 他 (表示 sigmoid 函数 g(' ) 关 于 它 的 变量 的 一 阶 导数 。 但 是 ， 从 (11.44) 给 出 的 9 7) 的 
定义 ， 容 易 发 现 

















杀 (z) = qz)9(- 2 (11.62) 
其 中 go -~ o) 是 由 -7 蔡 代 gz) 中 的 ?> 下 和 到 的 因此 ， 我 们 可 写成 
Ex 如 2 习 - 区 上 已 - 下 szj 呈 (1.63) 


相应 地 ， 将 式 (11.63) 代 入 式 (11.60)， 我 们 得 到 
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1G 用 1 时 
9 1 区 
全 间 = 工 忆 之 P(X =x1 忆 = xp) - 世 osjm (11.64) 


为 简单 起 克 ， 我 们 定义 整体 均值 














= 号 六 PKX=xl 和 =- xz{ - 和 oxjan (11.65) 
了 天 
它 代表 神经 元 ; 和 7 状态 的 平均 相关 性 乘 以 加 权 因 地 gp| - 浊 之 ，。， 史 ] 。 这 个 平均 是 对 所 


有 克 的 可 能 值 (由 训练 集中 抽取 ) 及 加 的 所 有 可 能 值 求 得 的 ， 这 里 天 表 未 可 见 神 经 元 府 罗 
表示 隐藏 者 经 元 。 
在 概 次 空间 中 的 梯 麻 上 才 可 以 由 定义 突击 权 值 几 的 增 量 改变 


Am = sa70m - 轴 (41.66) 


站 0 四 
来 完成 ， 其 中 1= s/T 为 学 习 速度 参数 ，px 由 起 (11,65) 定 义 。 臣 (11.66) 为 sigmoid 信 度 网 络 
的 学 习 规 则 。 
sigmoid 信 度 网 络 学 当 过 程 的 小 结 由 表 11-2 给 出 .其 中 学 习 是 以 集中 方式 完成 的 ， 即 网 
络 突 触 权 值 的 改变 是 基于 整个 训练 集 作出 的 。 由 表 11-2 给 出 的 小 结 不 包括 对 模拟 过 火 的 使 
用 ， 这 也 是 我 们 置 温度 了 等 于 1 的 原因 。 介 足 ， 止 如 在 Boltzmann 宙 一 样 ， 如 果 期 望 sgmoid 
信 度 网 络 学 习 过 程 更 快 到 达 热 平衡 ， 则 在 学 习 程 序 中 可 以 结合 模拟 退火 。 
表 11-2 sigmoid 情 度 网 络 学 习 过 程 小 结 
































初 妈 化 。 艺 始 化 网 络 ， 设 半 网 络 权 值 wx 为 [ - ay a- 区 癌 内 区 匀 分 布 的 随机 数 ，e 的 一 个 典型 值 为 0.5， 

1. 给 定 训练 例子 集 g ， 夭 制 网 络 的 可 风神 经 元 到 x， 其 中 xxE 宁 - 

2. 对 每 一 个 xx， 在 某 个 运行 激 度 了 下 热 行 网 络 单独 的 Gihps 采样 模拟 ， 并 观察 整个 网 络 的 状态 向 量 的 结果 。 盘 设 
执行 的 模拟 时 间 昆 够 长 ， 对 于 训练 集 林 中 的 相同 合子，x 的 肥 值 序 该 洒 34 给 定 训 练 集 对 应 的 随机 癌 景 飞 的 条 件 分 
布 。 

. 计算 总 体 平均 值 


四 


枚 = PRX= xxx xD) 


EUJ 司 和 
其 中 随机 疝 量 已 是 尺 的 子 集 ， 且 和 = (z, 现 )， 区 表示 可 见 神经 负 ， 交 表示 隆 藏 神经 元 ; 5 是 状态 阅 基 x 的 第 /个 
元 素 ( 即 神经 元 7 的 状 太 )， 节 为 神经 元 ; 到 神经 元 /的 窒 触 权 值 。siBmeid 网 数 9 定义 为 


S0) = 到 忆 可 
. 阅 络 的 每 个 突 触 权 值 mw 的 增加 量 为 和 mr = ?pk ， 其 中 中 是 学 习 率 套数 。 根 据 最 大 似 然 原则 , 这 种 调整 将 洪 梯 庶 穆 动 


网 络 的 突 触 权 贰 到 似 然 攻 数 L(w) 的 一 个 局 部 最 大 仁 、 


习 











与 Boltmann 机 不 同 ， 在 sigmoid 信 度 网 络 学 刁 中 仅 需 - -个 阶段 。 这 样 简化 是 因为 状态 向 
量 的 概率 分 布 的 归 一 化 由 sigmoid 函数 p(, ) 对 每 个 神经 元 局 部 完成 ， 而 不 经 过 计算 水 及 所 有 
可 能 的 状态 构 形 前 分 函数 2 的 困难 。 由 训练 集 7 中 抽取 给 定 的 & 的 值 ， 一 号 随机 向 量 忆 的 
条 件 分 布 已 经 由 Gibbs 抽样 正确 地 建 模 ， 在 Baitzmann 学 习 过 程 的 负 向 阶段 所 起 的 作用 就 被 加 
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权 因 子 吕 | - Z ,ex ) 所 答 代 ， 它 涉及 计算 神经 元 ; 和 的 状态 问 的 总 体 平均 相关 性 怠 。 


当 达 到 对 数 似 然 画 数 2(Cw) 的 局 部 最 小 值 时 ， 这 时 如 果 网 络 学 习 的 是 确定 性 的 有 喘 射 ， 则 加 权 
央 了 将 蛮 为 零 ; 杏 则 它 的 平均 作用 效果 将 不 为 零 。 

在 Neai(1992) 的 实验 结果 表明 ，(1)sigmoid 信 度 网 络 能 够 对 非 平凡 的 分 布 异型 进行 模拟 
学 习 ，(2) 这 些 网 络 能 够 比 Rolermann 机 有 更 快 的 学 习 率 ，(3)sigmoid 信 度 网 络 对 Boitzmann 机 
的 这 个 优点 是 因为 消除 学 习 过 程 中 的 负 轩 阶段 . 


11.9 Helmhottz 机 


sigmoid 信和 度 网 络 提 供 一 个 强 有 力 的 多 层 框架， 用 无 肯 督 的 方式 表示 各 学习 我 们 感 兴趣 
的 感知 输入 中 的 高 阶 统 计 关 系 ”由 Dayan et alL, (1995) 和 Hinton et al, (1995) 首 先 描绘 的 
Helmholtz ”机 提供 另 一 个 精巧 的 多 层 展架 ， 可 以 不 用 Gibbs 抽样 而 达到 同样 的 目的 。 

Helmholtz 机 使 用 两 组 完全 不 同 的 突 租 连接 集 ， 识别 
如 图 11-7 表示 的 两 层 的 二 值 随机 神经 元 网 络 ， 在 疼 
11-7 中 的 实 线 表示 前 向 连接 ， 它 们 构成 识别 模型 。 
这 个 模型 的 日 的 是 推断 引起 输入 向 释 的 四 有 概率 分 
布 。 在 图 11-7 中 的 虚线 帮 示 反 向 连接 ， 它 们 构成 产 
生 模 型 。 第 二 个 模型 的 目的 是 从 网 络 隐藏 层 所 捕 钦 
的 轿 有 表示 中 重 构 对 原始 输 人 向 量 的 逼近 ， 从 而 使 
之 能 以 自 监督 的 方式 运行 ， 识 别 模 型 和 产生 模型 以 
严格 的 前 馈 方 式 运行 .没有 反馈 ; 它们 只 在 学 习 过 
程 中 相互 作用 。 

Hinton et al.(1995) 措 述 一 个 称 为 “ 罗 醒 - 休眠 ” 
算法 计算 Heimholz 机 的 识别 权 值 和 产生 权 值 。 正 如 














第 一 隐 圳 层 


名 字 所 提示 的 ， 算 法 分 两 个 阶段 : -- 个 “唤醒 "阶段 图 11-7 由 识别 ( 实 线 ) 连 接 和 产生 
和 一 个 “休眠 "阶段 。 在 “唤醒 "阶段 ， 网 络 由 识 蓝 权 (虚线 ) 连 接 的 互 连 神经 元 怕 成 的 
值 用 前 外 方式 驱动 。 因 此 在 第 一 个 隐 层 产生 一 个 输 Heimnolz 天 后 构图 


人 向 量 的 表示 。 接 着 第 一 个 隐 层 产生 对 第 一 个 表示 的 表示 ， 对 其 他 网 络 隐 茂 层 依 此 类推。 网 
络 不 同 隐藏 层 产生 的 去 示 集 提供 网 络 对 输 人 向 莉 的 总 休 表 示 ,， 虽 然 此 时 昼 经 元 是 由 识别 模型 
的 权 什 驱动， 但 在 "唤醒 "阶段 只 有 产生 模型 的 民 值 利用 局 部 可 用 信息 进行 学 习 。 实 际 上 ， 学 
习 过 程 的 这 个 阶段 使 得 总 体 去 示 的 每 一 屋 在 重建 前 一 层 形 成 的 激活 中 都 得 到 提高 。 

在 算法 " 休 限 "阶段 ， 识 别 模 型 的 权 值 被 禁止 。 网 络 由 产生 忆 值 反 向 驱动 ， 从 最 外 面 的 隐 
藏 层 开始 ， 逐 层 反 向 运行 直至 输 和 人 层 。 由 于 神经 元 大 随机 的 这 个 事实 ， 惠 复 这 个 过 程 - - 役 会 
在 输入 层 产 生 许 多 不 同 的 “幻想 " 向量 。 这 些 纠 想 提供 网 络 产生 模型 关于 世界 的 一 个 无 偏 抽 
样 。 产 生 一 个 "幻想 "之 后 ， 利 用 简单 的 delta 规则 (在 第 3 章 描述 ) 调 整 识别 权 值 ， 使 得 引起 
“幻想 "的 隐藏 活动 的 恢复 概率 的 对 数 最 大 化 。 如 同 " 唤 醒 " 阶 段 一 样 ,“ 体 眠 "阶段 仅 利用 局 部 
可 用 信息 。 

产生 权 值 ( 邑 反 向 连接 ) 的 学 习 规 则 低 然 使 用 简单 的 delaa 规则 。 但 是 ， 这 个 规则 举荐 一 
种 惩罚 对 数 似 然 画 数 的 梯度 而 不 是 对 数 似 然 本 数 的 梯度 。 惩 六 项 是 真实 的 后 验 分 布 相 识别 模 
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型 所 生成 的 实际 分 布 之 间 的 Kulbaek-Leibier 散 度 (Hinton et 由 .，1995) ;Kullhack-Leibler 若 度 
或 相对 和 粮 在 前 一 章 申 曾经 讨论 过 。 记 际 上 ， 惩 罚 对 数 似 然 函 数 是 输入 数据 对 数 似 然 函 数 的 一 
个 下 界 ， 通 过 学 当 过 程 提高 这 个 下 界 。 特别 地 ， 学 习 过 程 试图 调整 产生 权 值 使 得 近似 真实 的 
后 验 分 布 尽 可 能 地 靠近 识别 模型 实际 计算 的 分 布 。 很 遗 嵌 ， 学 习 识 别 模型 的 权 值 并 不 是 精确 
地 对 应 于 惩罚 位 然 丙 数 。 唤 醒 - 休眠 学 习 过 程 不 能 保证 在 所 有 实际 场合 部 成 功 ; 有 时 它 会 失 
败 。 


11.10 平均 场 理论 


前 三 季 所 考虑 的 学 习 机 器 有 一 个 共同 前 特征 : 它们 都 使 用 随机 神经 元 ， 因 此 可 能 导致 学 
习 过 程 很 缓慢 。 在 本 章 的 第 三 部 分 和 最 后 部 分 、 我 们 研究 利用 平均 场 理 论 为 数学 基础 导出 这 
些 随机 机 器 的 确定 性 到 近 以 加 速 学习 。 店 于 这 里 讨论 的 随机 机 器 有 不 同 的 结构 ， 相 应 地 使 用 
平均 场 埋 论 的 方式 也 不 相同 。 特 别 地 ， 我 们 可 以 验证 在 文献 中 被 研究 过 的 两 种 特殊 方法 : 

1 相关 性 用 它们 的 平均 场 逼近 替代 ; 

2. 通过 变 分 原理 用 一 个 易 解 模型 替代 一 个 难 解 模型 。 

方法 2 是 高 魔 原则 化 的 ， 因 此 医 常 有 吸引 方 。 它 适用 于 sigmoid 信任 网 (Saul et 二 .1996)》 
和 Helmbheltz 机 (Dayan et al,,1995)。 但 是 应 用 方法 2 到 Boltmmann 机 时 非常 复杂 ， 因 为 需要 前 
分 级 数 2 的 一 个 圭 界 。 由 于 这 个 原因 ，Peterson and Anderson1987) 应 用 第 -个 方法 加 速 
Boltzmamn 学 习 规则 、 在 这 一 节 我 们 为 第 一 种 方法 提供 理论 基础 ， 第 一 种 方法 在 木 章 后 面 考 
虑 。 

平均 场 逼 近 的 忆 想 在 统计 物理 学 中 是 熟知 的 {Glauber, 1963)。 虽 然 不 能 否认 在 随机 机 器 
的 背景 下 期 望 在 所 有 时 刻 知 道 网 络 中 所 有 神经 元 的 状态 ， 但 是 ， 我 们 必须 承认 ， 在 神经 元 数 
目 比 较 大 的 网 络 中 ， 神 经 状态 包含 比 我 们 实际 所 需要 的 多 得 多 的 信息 。 事 实 上 上 ， 我 们 仅 需 要 
知道 神经 元 状态 的 均值 或 神经 状态 对 的 乘积 的 均值 。 

在 一 个 随 宙 神 经 元 里 ， 点 火 机 制 庙 随机 规则 描述 。 在 这 种 情况 下 ， 对 我 们 而 言 .个 合 
的 要 求 就 是 查询 神经 元 7 的 状态 % 的 均值 。 精 确 地 说 ， 这 个 均 倡 为 -种 " 热 "平均 ， 因 为 突 触 
噪声 常常 根据 热 波 动 建 槛 。 对 任何 事件 ， 令 < % > 表示 的 均值 。 神 经 元 / 的 状态 由 概率 规 
则 




















+ 上 以 概率 P(w) 
姜 = | (11.67) 


-1 以 概率 1- P(w) 
描述 ， 其 中 Po) -TapC- 7 条 《11.68) 
式 中 7 为 运行 温度 。 因 此 我 们 可 以 利用 给 定 的 诱导 局 部 域 ” 的 特定 值 表示 均值 < > 如 下 : 
<>=(+l)Po)+(-DL- Po 
= 2P(o) -1 
= tanh(wA27) 《11 .69) 
中 tanh(z/27) 是 (5727) 的 双 昌 正切 函数 图 11-8 给 出 均值 < zx > 对 诱导 局 部 域 " 两 种 
。 连续 曲线 对 应 于 大 于 零 揭 某 个 讲 度 7， 粗 实 线 对 应 于 了 = 0 的 极限 情况 。 在 后 一 种 情 
襄 ， 式 (11.69) 取 极限 慈 式 





















































< > 一 so) 当 7 >0 (11.70) 
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这 对 应 于 MeCulloch-Pitts 神经 元 的 激活 函数 . 








图 11-8 热 阅 均 < % > 关于 诱导 局 部 域 w 的 图 ; 和 粗 实 曲线 
对 应 于 MeCulloch-Pitts 神经 元 的 常 遇 操作 
到 目前 为 止 ， 讨 论 集中 在 单个 随机 神经 元 这 种 简单 情形 。 对 于 更 常见 的 情形 ， 由 大 县 神 
经 元 组 成 的 随机 机 器 ， 这 是 一 个 朵 难得 多 的 任务 。 出 现 困难 归 央 于 以 下 两 个 因素 的 纠 合 ; 
。 神经 元 7 的 概率 忆 (v ) 是 诱导 局 部 域 ” 的 非 线性 函数 。 
，” 诱 时 局 部 域 " 是 一 个 随机 变量 ， 它 受到 和 神经 元 / 的 输入 相连 接 的 其 他 神经 元 的 随 
机 活动 的 影响 。 
大 体 上 可 以 有 把 握 地 说 ， 我 们 还 没有 可 以 利用 的 数学 方法 使 之 精确 评价 随机 机 器 的 行 
为 。 但 我 们 可 以 利用 已 知 的 通称 为 乎 均 场 各 近 的 近似 方法 ， 它 常常 产 牛 良好 的 结果 。 平 均 场 
逼近 的 基本 思想 是 对 网 络 中 每 个 神经 元 ) 用 诱导 局 部 域 w 的 平均 蔡 代 神经 波动 w ， 可 表示 为 
由 > = 《Zooxy》 = ic< 和 > 《11.71)》 
此 ,我 们 可 以 计算 由 交 个 神经 元 构成 的 随机 机 器 的 第 7 个 神经 元 的 平均 状态 <w > ， 正 如 
在 式 (11.69) 对 单个 随机 神经 元 所 做 的 那 伴 ， 可 写 为 
< > = ta anh( 训 <w >] -= ah 二 忆 uc >) Cn 
依据 式 (11.72) ， 我 们 可 以 正式 陈述 平均 场 逼 近 如 下 : 
一 个 随机 蛮 量 某 个 函 教 的 平均 用 贿 机 蛮 量 平均 的 阴 孝 逼近 。 
对 j =1，2，…， 帮 ， 式 (11.72) 表 示 具 有 玉 个 未 知 基 < 汪 > 的 非 线性 三 程 组 。 这 个 非 线 性 方 
程 给 的 解 是 一 个 易 处 理 的 命题 ， 因 为 本 知 量 是 确定 的 而 不 像 在 原来 网 络 中 它们 是 随机 变量 。 
11.11 确定 性 的 Boltzmann 机 


Beltzmmann 机 学 习 与 神经 元 数目 成 指数 关系 ， 因 为 Boltanamn 学 习 规 则 要 求 计算 网 络 中 每 
一 对 神经 元 之 间 的 相关 性 。 因 而 Boltamann 学 习 需 要 指数 的 时 间 。Peterson and Anderson (1987) 
提出 了 加 速 Balpmamn 学 习 过 程 的 方法 。 该 方法 涉及 用 一 种 平均 场 通 近 蔡 代 Boltmmann 学 己 规 
则 式 (11.53) 中 的 相关 性 ， 可 表示 为 
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< = 2 (11.73) 
其 中 于 均 量 < % > 利用 平均 场 方 既 (11.72? 计 算 。 
利用 刚才 描述 的 方式 通 近 相关 人 性 的 计算 ， 这 种 形式 的 Bottumann 学 习 称 为 确定 性 的 
Boltzmann 学 习 规 则 。 特 别 地 ， 标 准 的 Boltzamann 学 习 规 则 式 (11.53) 被 逼近 如 下 ， 
Am = -0TDT) (HL.74) 
其 中 太 和 避 分 别 表示 可 匈 神 经 匹 闪 在 单个 模式 上 ) 处 于 箱 制 和 自由 运行 情况 下 的 平均 输 
出 ，? 是 学 习 率 参数 。 电 然 Boltumann 机 使 用 二 值 的 随机 神经 元 ， 但 它 的 确定 性 网 络 却 使 用 
类 似 的 确定 性 神经 元 。 

确定 性 的 Boltznam 机 比 标准 的 Boltanann 机 在 学 习 速 度 上 提高 一 至 两 个 数 蝴 级 ( Peterson 
and Anderson,1987)。 但 是 ， 在 它 的 实际 应 用 中 仍 有 两 点 需 注意 : 

1. 确定 性 的 Bultznann 学 习 规 则 只 在 监督 情况 下 有 有 效 ， 即 当 有 些 可 见 神经 元 作为 输出 神 
经 元 时 。 无 监督 学 习 完 全 不 能 在 平均 场 领域 应 用 ， 因 为 平均 状态 是 自由 运行 概率 分 布 的 -个 
显著 改进 的 表示 。 

2. 在 监督 学 习 的 情况 下 ， 使 用 确定 性 的 Boltzmann 学 习 限 制 在 仅 含 有 一 个 隐藏 层 的 神经 
网 络 (Galland,1993)。 从 理论 上 潮 ， 没 有 任何 理 击 不 可 以 用 到 多 个 隐藏 层 ， 但 在 实际 上 使 用 
多 个 隐藏 层 导 笃 和 第 1 点 中 提 到 的 无 监督 学 习 -- 样 的 问题 。 

式 (11.74) 的 确定 忻 Boltamann 学 习 规 则 有 一 个 简单 和 局 部 的 内 式 ， 这 使 得 它 易于 用 超大 
规模 集成 电路 (VLSI) 厂 件 实现 (Alspector et 直 .， 1991; Schneider and Card, 1993)。 但 是 ， 在 
Schneider and Card(1998) 中 报告 电容 权 值 的 连续 学 当时 ， 确 定性 的 Bolizmann 机 不 能 忍受 在 学 
习 电 路 中 权 值 作 储 电容 器 改变 的 延迟 和 偏 益 。 这 是 因为 这 些 内 部 问题 导致 突 触 权 值 和 偏 移 ， 引 
起 振荡 ， 这 显然 是 不 能 接受 的 。 

11.12 确定 性 的 sigmoid 信和 度 网 络 

在 1.10 闻 描述 的 平均 场 逼 近 的 本 质 在 于 用 随机 变量 均值 的 函数 抽 近 随 优 变量 上 数 的 光 
值 。 对 Boltzmann 忆 的 道 近 ， 由 前 一 节 讨 论 可 知 ， 平 均 场 理论 的 这 个 观点 只 有 在 限制 情况 下 
有 用 。 这 一 节 我 们 描绘 平均 场 理 论 的 另 一 个 观点 ， 它 适合 于 sigmoid 信和 度 网 络 的 逼近 。 基本 
上 ,在 这 里 发 现 对 -个 难 解 模型 经 过 变 分 原理 可 由 一 个 易 解 偿 型 进行 道 近 (Sanl et al. ,1996; 
Jordan et 世 . ,1998) :一般 说 来 ， 易 解 模型 的 特点 就 是 降低 难 解 模 型 的 自由 度 。 针 对 特定 问题 
设计 出 适宜 的 所 请 变 分 参数 扩展 难 解 模型 使 之 包括 这 些 附加 参数 ， 这 样 就 可 以 完成 自由 度 
的 降低 。 这 些 术 语 来 自 植 根 于 变 分 法 技术 的 使 用 (Parisi,1988)。 


对 数 似 然 函数 的 下 界 
我 们 讨论 的 出 发 点 是 式 (11.58) 中 的 慨 率 关系 ， 这 里 以 对 数 形式 重 写 如 下 : 
Jog( 咏 = xx) = log > P(X= ID) (11.75) 
四 
如 同 在 11.8 节 ， 我 们 齐 分 随机 向 最 和 成 和 和 和 区， 令 和 对 应 于 下 见 神经 元 ， 而 区 对 应 于 
隐藏 神经 亏 。 随 机 向 重生 ,和 和 加 的 实现 分 别 记 为 x， 和 ， 刺 。 现 在 ， 式 {11.75) 中 要 求 概 
率 和 的 对 数 是 很 难处 理 的 。 注 意 对 任何 条 件 分 布 (区 = 丈 ! 和 = 大)， 我 们 可 以 将 式 (11.75) 
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重 忆 成 不 同 供 等 价 的 几 式 ， 这 样 我 们 就 可 以 克服 这 个 困难 : 
logP( 忆 = 的 ) = log 09 =- xp | X。 = Vi- <] (11.76) 


这 个 等 式 写成 这 种 形式 旦 为 了 应 ， 用 前 一 章 讨 论 的 Jensen 不 等 式 。 关 于 这 个 应 用 ， 我 们 获得 和 下界: 
logP(X， = 亚 ) > 立 ? = 区 1X。 = ae 
考虑 到 平均 场 理 论 ， 今 后 我 们 将 把 送 近 分 布 CO(Xs = 闻 1 和 = 拉 ) 称 为 平均 场 分 布 。 
我 们 感 兴趣 的 是 对 数 似 然 函 数 的 公式 、 在 sigmoid 信和 度 网 络 时 ， 邓 数 似 然 数 5w) 的 定 
义 旦 对 所 有 和 (由 训练 集 9 决定 ) 求 和 ， 因 而 网 络 使 用 集中 式 算 法 。 我 们 将 使 用 不 同 策略 凑 
sigmoid 信 度 网 络 的 平均 场 逼近 ， 特 别 是， 将 采用 吊 行 运 算 方式 ， 对 数 似 然 函 数 的 计算 是 在 
一 个 一 个 例子 的 基础 上 进行 的 ， 表 下 为 
字 (w) = logP(X = 拉 ) 《1.78) 
其 中 w 为 网 络 权 值 向 量 。 对 独立 同 分 布 的 ( 记 ) 数 据 ， 实 际 的 对 数 似 然 卫 数 吧 Cw) 是 对 每 个 数 
据点 的 &(w) 项 的 和 。 这 样 情 况 下 ，Z(w) 的 定义 基本 上 和 2(w) 等 价 。 一 般 利用 2(w) 可 以 提 
供 也 (w) 的 一 个 表 近 。 
崇 行 或 在 线 学 习 方式 已 经 变 成 了 神经 网 络 设计 的 标准 户 式 ,这 主要 由 于 它 的 实现 简单 。 
因而 依据 式 (11.78)， 可 以 写成 
己 ( 和 = 区 


2(w) > 0( 苹 = 区 1 和 = xp) 5 全 作 和 1 六 二 可 ] 





(11.77) 


或 等 价 地 、 
史 (W) 关 -20( 了 = 区 1 和 = 和 iog0( 和 = 区 | 甩 = 天 ) 
多 
+ DO0(R = 1 瑟 = x)logP( 和 = x) (11.79) 
加 
式 (11.79) 右 边 第 一 项 为 平均 场 分 布 6( 称 = 区 1 和 = ) 的 箭 ; 不 要 把 它 和 条 件 箭 混淆 。 第 二 项 
是 就 隐藏 昼 经 元 的 所 有 可 能 状态 对 logP(X= x) 的 求 平均 。 在 单位 温度 ， 出 11.2 节 中 对 Gihbs 分 
布 的 讨论 ， 注 意 ES logP(X=X)o | 7 了 = 
= 8) = Jets 宝 2 

随 之 有 忆 = -logP(X = x) = eol oj ) (0.80) 
使 用 sigmoid 现 数 的 定义 

















1 exp(o) 
1]+expt-o) 1]+exp(z) 


因而 可 以 把 sigmoiqd 信和 虚 网 络 的 能 量 函 数 表 示 为 
=- 忆 Donmt+log(1+ 六 oo) (11.8 旧 


除去 一 个 骤 数 因子 12， 式 (11.81) 的 右边 第 一 项 可 以 看 成 个 Mankov 系统 ( 即 Bolemuan 机 ) 
的 能 量 函数 ， 但 是 第 二 项 对 siemoid 信 度 网 络 是 惟 -- 的 。 
起 (11.79) 的 下 界 对 任何 平均 场 分 布 005 = 吕 1X =x 都 是 对 的 。 但 是 ， 为 了 很 好 利用 


ep) = 





[ml] 
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它 ， 必 须 选 择 分 布 使 得 可 以 估计 这 个 界 。 这 仅 笠 要 选择 析 办 分布 (Saul et 让 , ,1996) 
0( 丰 = 丙 |X= 和 ) = | 迪 Oo 《11.82) 
jiE 洲 


其 中 3 表示 所 有 隐藏 神经 元 的 集合 ， 且 它们 的 状态 为 独立 的 具有 可 测 均 值 m 的 Bemoulli 变量 
《一 个 Bemoulli(0) 定 义 为 取 值 1 的 概 滨 为 8 的 二 值 随机 变量 )。 因 此 ， 将 (1.82) 代 人 到 式 
《11.79) 我 们 得 到 (经 过 化 简 ): 


2(W)- 辣 [alog+y tt-)iog(l -已 ) 
E 各 


十 3 六 一 < log[ 1 + exg( 3 icpx] > (1.83)》 
ES 


近 2 
其 中 用 < - > 表示 关 十 平均 场 分 布 的 总 体 平均 ， 7E 史 表示 /是 一 个 隐藏 神经 元 。 式 (11.83) 右 
边 第 一 上 头 是 平均 场 恼 ， 第 二 项 为 平均 场 能 量 。 这 两 项 都 是 关于 式 (T1.82) 的 析 因 分 布 的 : 
遗 钴 的 是 ， 我 们 仍然 有 一 个 难 解 问题 : 精确 计算 < logI1+ exp(z 7 > 形式 的 均值 十 不 可 
能 的 。 这 项 出 现在 (11.83) 中 ， 包 含 
二 = 了 oz (11.84) 


为 了 训 服 这 个 困难 ， 我 们 重新 利 导 Jensen 不 等 式 得 到 -个 界 。 首先 ， 对 任何 随机 杰 量 3 和 
在 何 实 数 三 ， 把 < logLl + exp()] > 表示 成 等 价 的 另 一 种 洪 式 


< log(1+ 罗 ) > = < logLesie (+ 的 > = 和 <2>+<log[e 
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> 
(11.85) 
其 中 <> 为 的 总 体 平均 。 其 次 ， 和 以 前 使 用 的 Jenven 不 等 式 相 比 ， 我 们 反方 向 使 用 它 ， 
这 样 可 以 得 到 式 (11.85) 右 边关 于 平均 值 的 一 个 上 界 
1L< log( + 乓 ) > 二 与 < 二 >+log< e0 二 6 和 > 《11.86)》 
在 式 (11.86) 中 置 $ =0， 我们 获得 标准 界 
< logtL+ 可 ) > 所 log< 工 + 时 > 
在 式 (11.86) 中 :允许 使 用 非 零 值 ， 可 得 均值 < log(1+ e5) > 的 一 个 可 能 比 标准 和 押 更 紧 的 界 
(Seung，1995)， 如 下 例子 所 示 - 
例 11.3 Gauss 分 布 变量 ”为 了 说 明 (11.86) 所 描述 的 办 的 用 途 ， 考 虑 一 个 其 零 多 什 且 
方 若 为 1 的 Gauss 分 布 变量 。 对 这 个 特殊 情况 ，< log(1 + 所 ) > 的 精确 值 是 0.806。 在 (11.86) 
所 描述 的 界 为 er 到 + eos- 守 在 =0.5 时 取得 最 小 值 0.818。 这 个 界 比 $= 0 时 的 标准 界 
0.274 紧 紧 地 接近 真实 值 (Saul et al- ,1996 )。 垩 
回音 晶 前 的 问题 ， 将 式 (11.85) 和 (11.86) 代 人 式 (11.83)， 得 到 证 据 X. = 大 的 瞬时 对 数 
似 然 冰 数 的 一 个 下 看 如 下 : 


和 (> - [mlog + (1 由)1og(1 一 用 ) 
括 训 


+ >iup(-S) -log<cexp(-85)+exp((-5)2) > (11.87) 


FE JE 
其 中 由 式 (11. 中 ) 定 义 。 这 是 在 一 个 -一个 网 子 的 基础 上 计算 对 数 似 然 秀 数 时 (w) 的 一 个 理想 
的 欠 。 
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sigmid 入 度 网 络 平均 场 逼近 的 学 习 过 程 
在 导出 式 (11.87) 的 办 时 我 们 引入 了 晰 组 变 分 参数 : 1(7E 吕 ) 和 有 (对 所 有 门 , 但 没有 其 
体 指定 它们 。 这 些 都 是 可 调 参 数 ， 既 然 日 标 是 最 大 对 数 似 然 函数 风 (w) ， 我 们 自然 选择 mm 和 


志 的 值 悟 得 它们 最 大 化 (11.87) 的 右边 表达 式 。 为 了 这 一 点 我 们 使 用 Saul et al.(1996) 描 述 的 “ 


两 步 欠 代 过 程 。 
考 岷 第 - 种 情形 : 均值 几 冉 定 ， 而 要 求 寻找 参数 5 的 值 使 之 产生 对 数 似 然 函数 &(w) 的 
最 紧 的 界 。 这 里 我 们 注意 ， 式 (11.87) 右 边 的 表 达 式 没 有 冉 合 属于 网 络 不 同 神经 元 的 占 的 项 。 
内 此 ， 关 于 5 求 表 达 式 的 最 小 值 妇 结 为 在 1[0，Li 上 求 A 个 独立 的 最 小 值 ， 这 里 六 为 网 络 神 
经 元 的 总 体 数目 ， 
考虑 第 二 种 情形 : g$ 的 值 蜀 定 ， 要 求 寻 找 均 值 上 使 之 产生 对 数 似 然 丽 数 哇 (w) 的 最 紧 的 
界 。 为 此 我 们 引入 下 列 定 义 : 


日 
= 了 < ep 人 人 )+ep(( -与 )5) > (11.88) 











其 中 随机 变量 5 由 式 (11.84) 定 义 。 给 定 证 据 (样本 ) 和 E 可 ， 仿 导数 玉 提 供 神 经 下 ; 的 状态 x 
对 神经 元 7 的 状态 x5 的 亲缘 影响 的 一 种 度量 。 出 sigmoid 信 度 网 络 突 触 权 值 的 定义 ， 只 有 当 
状态 x 是 状态 % 的 双亲 时 如 才 不 为 零 。 利 用 式 (11.82) 的 析 因 分 布 ， 我 们 可 以 求 得 (- 和 3) 
和 emp((1-S)3) 的 整体 均值 ， 从 而 求 出 偏 导数 丘 ， 这 里 计算 如 的 公式 在 袁 11-5 给 出 。 存 
了 护 的 值 ， 我 们 可 以 继续 对 国定 的 6 寻找 参数 w 值 以 最 大 化 对 数 似 然 画 数 2(w) 的 过 程 。 
特别 ， 对 护 求 式 (11.87) 的 微分 ， 令 微分 值 为 0， 重 新 调整 项 后 我 们 得 到 

ea = 史 [ 和 mt 人 


四 
可 写成 等 价 的 形式 
丙 = 杂 习 [ 加 人) 二) 对 六 E (11.89) 


其 中 9() 是 sigmoid 函数 。 方 程 (HL .89) 称 为 sigmoid 信和 度 网 络 的 平均 场 方程 。 在 这 个 方程 中 
sigmoid 函数 的 变量 构成 神经 元 7 的 所 谓 Matko, 层 ， 它 组 成 如 下 : 

。 神经 记 7 的 双亲 和 孩子 ， 分 别 由 项 由 mu 和 思 必 表示 。 

。 神经 元 的 孩子 的 其 他 双亲 ， 通 过 偏 导数 K, 继 承 。 
图 1i-9 者 示 神 经 元 7 的 Markov 层 ,“Markos 层 " 的 思想 由 Pear(1988) 引 入 ; 它 说 明神 经 元 节 
的 有 效 输入 由 它 的 双亲 、 孩 子 和 孩子 的 双亲 这 些 项 组 成 。 

虽然 作为 真实 后 验 分 布 严 鸡 = 束 | 瑟 = 三 ) 的 一 个 通 近 ， 在 式 (11.82) 中 选择 析 因 分 布 并 
不 精确 ， 但 是 平均 场 方程 (11.89? 选 择 参 数 jjo je 吕 的 最 优 值 使 得 这 个 交 近 尽 可 能 准确 。 这 样 
依次 在 一 个 例子 接 一 个 例子 的 基础 上 计算 对 数 似 然 郑 数 史 (w) 的 最 紧 平均 场 界 (Saul et 可. 
1996) 。 

在 计算 参数 15 1 和 41 的 更 新 值 后 ， 接 着 计算 突 触 权 值 w 的 修正 ， 使 用 公式 


Ai -= 998(W (1.90) 


ar 








玛 ] 
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图 11-9 Markov 层 举例 


其 中 归 是 学 习 率 参数 ，B(w) 是 对 数 似 然 函 数 吧 (w) 的 下 界 ， 即 有 (w) 为 式 (11.83) 在 过 的 表达 
式 。 利 用 这 个 玫 达 式 ， 直 接 求 取 偏 导数 86(w)/ae 的 值 。 

表 11-3 给 出 sigmoid 信 度 网 络 平 沟 场 遂 近 的 学 习 过 程 的 小 结 。 这 个 表 包括 计算 偏 导数 后 
和 3 B(w)/a 岂 的 公 趟 。 


表 11-3 用 于 sigmoid 信和 度 网 络 平均 场 通 近 的 学 习 过 程 
初 始 化 。 初始 化 阅 络 权 值 几 为 [ - aa] 了 内 均 与 分 布 的 随机 值 ，e 的 员 型 估 为 0.5。 
计算 、 从 训 红 集 抽取 伴 本 ， 进 行 下 草 计算 : 
1 对 国定 的 jj 更 新 ;1 
困 定 后 验 分 布 P 葡 = 郊 I 区 = ) 的 析 关 种 近 的 均 和 jw ie ， 最 小 化 下 刚 对 数 似 然 画 数 的 界 : 


Bi = 号 [mings + 人 -六 )iog(1-5]+ on 





- 习 opS- log< emp(- 光 ) +exp((L -与 玫 ) > 
入 六 
其 中 5 
B(w) 的 最 小 化 归结 为 在 区 问 [0，1 内 w 个 独立 最 小 化 、 
2. 对 国定 的 泡 | 更 新 1 
对 岗 定 参数 值 与 1， 迁 代 平均 场 方程 
风 [epyt) 


二 


其 中 扩 =- 了 < op(- 6) reb((L-E)a) > 
-的 Ge 9-eptGL -5 加 访 
了 

< expt(1 一 避 ) 王 ) > 

TEST 


= 


所 





由 = 
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画 数 cf) 为 sipnoid 琢 数 


1 
拉 = Te 
3. 类 肢 权 值 休 下 ， 
对 于 参数 iu; 和 | 1 的 珊 新 值 ， 计 算 突 甬 权 依 Aw 的 修正 景 


其 中 9 姨 学 习 率 参数 ， 且 


人 一 有 和 交 exp( 一 Sa) 801 一生 Jaexpf 人 一 各) 
上 Pipt 一 St 和 exPCT 训 二) 





一 伪 or 





其 中 8 已 定义 。 更 新 罕 独 各 值 : 


二 


习 


对 训练 集 可 循环 。 
对 包含 在 训练 集 的 所 有 调 练 样本 进行 循环 ， 从 而 最 大 化 它们 的 似 然 通 数 到 一 个 固定 选 代 次 数 ， 成 者 吉 到 过 氢 合 发 
生 ， 例 如 必 交 义 验 证 方法 检查 出 过 氢 合 问题 - 








[ss 
11.13 确定 性 退火 


现在 进入 本 章 最 后 一 个 论题 ， 确 定性 退火 。 在 11.5 节 我 们 讨论 模拟 退火 ， 这 个 随机 松 
弛 技巧 提供 解决 非 凸 优化 问题 的 一 :个 强 有 力 方法 。 但 是 必须 仔细 选择 退火 进度 表 。 特 别 地 ， 
只 有 当 退 火 温 虚 的 下 降 率 不 比 对 数 更 快 时 ， 全 局 最 小 才能 得 到 保证 。 这 种 要 求 使 得 在 许多 应 
用 中 用 模拟 退火 变 得 不 现实 。 模 拟 退 火 的 运行 是 在 能 量 曲 面 (地 形 ) 上 进行 随机 移动 。 相 反 ， 
在 确定 性 诞 火 时 ， 随 机 性 以 某 种 形式 结合 到 能 量 或 代价 晒 数 里 ， 因 此 在 一 系列 下 降温 度 情况 
下 进行 确定 性 最 优化 (Rose et al. ,1990; Rose,1998); 不 要 把 确定 性 退火 和 平均 场 退 火 ( 这 个 术 
语 常用 来 表示 确定 性 Boltzamamn 机 ) 混 湛 。 

下 面 我 们 在 无 监督 学 习 任 务 即 聚 类 六: 的 背景 下 ， 叙 述 确定 性 退火 的 思想 。 
通过 确定 性 退火 聚 类 


聚 类 定义 为 对 一 给 定数 据点 集 章 分 成 子 集 ， 使 得 每 个 子 集 尽 可 能 是 相似 的 。 聚 类 是 典型 
的 非 凸 优化 问题 ， 因 为 实际 上 用 于 聚 类 的 贿 变 函数 都 是 输 和 人 数据 的 非 凸 吨 数 。 周 时 栈 变 函数 
关于 答 人 的 曲线 充满 局 部 最 小 ， 这 使 得 求全 局 最 小 变 得 更 为 困难 。 

在 Rose(1991,1998) 中 通过 剖 分 的 随机 化 或 等 价 的 编码 规则 的 随机 化 ， 对 聚 类 描绘 一 
概率 框架 。 这 里 利用 的 主要 原则 就 是 每 个 数据 点 以 概率 归 为 一 特定 聚 类 ( 子 集 )。 肌体 夫人 入 
随机 向 景 买 表 示 源 ( 和 输入) 向 量 ， 令 随机 向 量 Y 表示 从 感 兴趣 的 码 本 的 最 优 重 板 ( 栓 出) 向 量 。 可 
这 两 个 向 量 的 单独 实现 分 别 记 为 x 和 和 y。 [8 

对 聚 类 我 们 需要 一 个 畸变 度量 ， 由 4(x,y) 表 示 。 假 定 g(x,y) 满 足 两 个 希望 的 性 质 
〈bD 对 任何 x 它 是 y 的 凸 函数 ，(2) 当 变 元 有 限时 ， 它 是 有 限 的 。 例 如 ，Puclid 平方 畸变 度量 
dx,3) = 1 一 了 了 作 7 《11.90) 
满足 这 种 适度 的 假定 。 对 随机 模式 的 期 望 畸 变 定义 为 

D=3YPX=xY=nDdx) = PKX=a-PY-yIX=x)dxy) 
站 了 到 了 
《11.92) 
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其 中 P(X=x,Y=y) 足 X=x 和 YY=y 有 联合 事 件 的 概率 。 在 虑 (11,92) 的 第 二 个 等 式 ， 我 们 利 
用 联合 过 什 概率 公式 





PK=xY=1) = PEY=yIXK=NPCGX= IN) (11.93) 

条 件 概 率 P( 了 =yIX= 3) 指 联想 概率 ， 即 ， 但 字 剖 昌 y 联 想 源 向 量 x 的 概率 。 
传统 上 通过 对 聚 类 模型 的 自由 参数 ， 即 重建 向 量 y 和 联 息 概 率 PC(Y= YIX= xz)， 最 小 化 
期 刻 畸 变 D。 这 种 形式 的 最 小 化 产生 * 硬 " 聚 类 饰 ， 合 是 指 源 向 量 区 被 归 人 最 近 的 码 向 量 了 - 
另 一 方面 .在 位 定性 退火 中 。 优 化 问题 被 改变 成 寻找 服从 特定 随机 水 平 概率 分 布 ， 使 得 它 最 
小 化 期 包 畸 变 。 作 为 随机 水 平 的 一 个 主 紫 度量 ， 我 们 使 用 Shannon 录 ， 定 义 为 (参看 10.4 节 ) 

















(XIY) = -YIP(X-xY-ylogP(X =xY =J (11.94) 
期 望 随 变 的 约束 优 化 可 以 皮球 成 Lagrange 国 数 
瑟 = 卫 - 了 王 《11.95) 


的 最 小 化 ， 其 中 了 为 Lagrange 梁子 。 从 式 (11.95) 我 们 观察 到 : 
。， 对 大 的 了 值 ， 入 吾 被 最 大 化 。 
。 对 小 的 了 值 ， 期 望 畸变 丸 被 最 小 化 ， 导 敏 硬 ( 非 随机 ) 到 类 解 - 
。 对 中 间 的 了 值 ， 忆 的 最 小 值 提供 在 焙 问 增 用 和 期 望 随 变 了 减少 之 间 的 折 中 。 
最 为 重要 的 ， 比 较 式 (11.11) 和 式 (11.95) ， 我 们 可 以 确认 表 11-4 所 列 的 约束 京 类 优化 问 
题 和 统计 力学 之 间 的 对 应 。 和 根据 这 种 类 比 ， 我 们 今后 称 7 为 温度 。 
表 11-4 约束 聚 类 和 统计 物理 学 之 间 的 对 应 








约束 聚 类 优化 统计 物理 学 

Hermge 贡 上 太 自由 能 量 六 加 
期 望 时 变 也 平均 能 量 < 妃 > 

Shannon 断 炳 上 

Lagrange 篆 了 了 测度 了 





为 了 进步 了 解 Lagrange 函数 上， 我们 注意 联合 箭 吾 ( 民 ,YY) 可 以 分 成 如 下 隐 项 (参看 式 
(10.25) ) ， 
百 (X,Y) = 厂 (X) +(Y1TX) 
其 中 旦 (X) 为 信 源 彤 ，F(YIX) 为 在 给 定 源 向 量 习 后 重建 向 量 立 的 条 件 丧 。 信 源 箭 妃 (X) 是 
独立 于 依 交 的。 因此。 我 们 可 以 从 Lagrange 函数 严 中 去 掉 信 源 和 坑 吾 (X) ， 从 而 集中 在 条 件 炳 
FTYIX) =- 闷 P(IX=xy>PY=yIX=xlogP(Y=y 了 IX=x (11.96) 
这 样 突 出 联想 概率 PCY=yIX= z 的 作用 。 因 此 ， 考 虑 到 约束 聚 类 优化 问题 和 统计 物理 学 之 
间 的 对 应 以 及 11.2 节 摘 述 的 最 小 自由 能 量 诛 理 ， 我 们 发 现 关 于 联想 概率 的 Lagrange 函数 
的 最 小 化 导 敏 Cibbs 分 布 



































PUTY =yIX= 革 = 去 esp( -2 (11.9) 
中 2 为 当前 问题 的 前 分 画 数 ， 定 义 为 
2 = ee- 2) (11.98) 


当 温 度 了 接近 无 穷 时 ， 我 们 从 式 (11.9) 发 现 联想 概率 趋向 于 均匀 分 布 。 这 就 意味 着 当 温度 
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相当 高 时 ， 每 个 输入 交 莉 是 相等 地 联 起 起 所 有 聚 类 。 这 种 联想 可 以 被 视 作 "角度 傍 精 "， 人 在 另 

-个 极端 ， 当 温度 了 址 于 零 时 ， 有 联想 凡 率 趋 近 于 8 责 数 ， 因 此 ， 当 肖 度 较 低 ， 分 类 是 “ 硕 ” 
的 ， 每 个 输入 样 不 以 概率 1 分 给 最 近 的 码 问 攻 。 为 了 寻找 Lagrange 函数 的 最 小 值 ， 我 们 将 
式 (11.97) 的 Gibbs 分 布 代 人 式 (11.9) 利 式 (]11.96)， 然后 将 结果 表达 式 用 到 此 (11.95) 的 
Tagrange 算 子 下 的 公式 中 - 这 样 做 导 敏 的 结果 为 (参看 习题 11.22) 


= min 下 =- 了 2 PC = X)logZ。 (1.99) 


PTIX=S 
对 剩 下 的 白 由 参数 即 码 向 匡 y， 最 小 化 Lagrange 画 数 ， 我 们 置 忆 " 关于 y 的 梯度 为 零 。 因 此 ， 
得 到 条 件 


忆 PGK -<Y =- 习 久 ye0c3) = 0 对 所 有 了 区 允 《11.100) 


其 中 9 为 所 有 码 向 量 的 集合 。 利 用 式 (11.93) 的 公式 和 对 P( 和 = 呈 0) 规整 化 .可 以 重新 定义 这 
个 最 小 化 条 件 为 


A 马 PCY = 了 IX= 史 芳 t0o7) =0 对 所 有 了 所 笃 CU.101) 


其 中 联想 概率 P( 立 =yI 和 =x) 由 式 (11.97) 的 Cibbs 分 布 定义 。 在 式 (11.101) 中 仅 为 了 完整 性 
包括 比例 因子 VNwW， 这 里 w 为 可 用 样本 的 数 日 。 

我 们 现在 可 以 描述 罕 类 的 确定 性 退火 算法 (Rose, 1998)。 革 本 上 ， 算 法 由 以 下 两 步 组 成 : 
开始 在 温度 7 为 很 高 值 时 对 码 向 量 最 小 化 Lagrange 晒 数  ， 然 后 在 降低 湿度 7 的 同时 跟踪 
最 小 值 。 换 名 话说， 确定 性 退火 运行 时 具有 特定 的 退火 进度 表 ， 温 度 人 稚 次 降低 。 对 温度 了 
的 每 一 值 ， 执 行 算法 核心 的 两 步 选 代 可 描述 如 下 

1. 国定 码 向 量 ， 利用 对 于 给 定 畸 变 度 基 dg,y) 的 式 (11.97) 的 Gibhs 分 布 计算 联想 概率 - 

2. 国定 联想 ， 使 用 式 (1.101) 对 码 向 量 了 最 优化 畸变 度 虽 d(x.y)。 

这 个 两 步 选 代 过 程 对 严 " 单调 不 升 ， 因 此 能 保证 收敛 到 -- 个 最 小 点 。 当 温度 了 很 高 时 
Lagrange 算 子 严 " 相当 光滑 ， 而 且 在 前 而 对 畸 灾 度 量 &(x，y) 的 道 度假 设 下 ， 严 是 的 四 上 颗 
数 。 在 温度 较 册 时 可 以 求 得 己 " 的 全 局 极 小 。 随 着 温度 降低 ， 联 想 概 率 变 “ 硬 "， 肝 致 一 个 
“ 硬 " 的 聚 类 解 。 

当 温 度 了 按 退 灰 进度 表 降 低 ， 系 统 经 坊 一 系列 相 变 ， 相 变 由 自然 聚 类 分 叉 组 成 ， 在 分 
叉 处 聚 类 模型 规模 ( 即 阳 类 的 数目 ) 增 加 (Rose et al. ,1990;Rose,1991)。 这 种 现象 由 于 以 下 藉 
因而 富有 意义 : 

。 它 提 供 控制 聚 类 模型 大 小 的 一 个 有 用 上 具 。 

。 正如 通常 的 物理 退火 一 样 ， 相 变 是 确定 性 退火 的 关键 点 ， 此 处 需要 小 心 进行 退火 。 

， 关键 点 是 可 计算 的 ， 因 而 提供 用 于 在 鸯 个 相 变 之 问 如 速算 法 的 信息 - 

。 最 优 模型 大 小 可 以 确认 ， 通 过 朝 合 一 个 确认 过 程 检验 在 不 同 相位 得 到 的 一 系列 解 ， 

这 些 解 是 表示 模型 规模 ( 即 聚 类 的 数 昨 ) 逐 渐 升 高 的 解 。 

例 王 .4 图 11-10 和 图 11-11 举例 说 明 随 温度 了 下降 或 温度 倒数 互 = 117 的 上 升 ， 俏 定 
性 退火 在 不 同 相位 时 聚 类 解 的 演化 ,产生 这 些 图 所 使 用 的 数据 集 由 6 个 Gauss 分 布 混合 而 
成 ， 它 们 的 中 心 都 以 和 标识、 计算 所 得 聚 类 的 中 心 都 以 e 标 识 。 由 于 附 类 解 在 非 零 温度 不 是 
“ 硬 ? 分 类 的 ， 这 个 随机 划分 在 图 中 由 属于 该 聚 类 的 等 概率 一 一 如 概 率 为 1/3 的 围 线 所 描绘 。 
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90] 图 1L-10 不 同 相位 的 聚 类 ， 画 线 是 等 概率 围 线 ,在 b) 中 P = U2， 其 余 情况 下 P = 173 
al 个 聚 类 (B= 0) b)2 个 聚 类 (已 =0.0049) 
ej3 个 聚 类 ( 8 = 0.0056) dj4 个 聚 类 ( 瑟 =0.0100) 
e)5 个 聚 类 (8 = 0.01561 D6 个 聚 类 (有 B =0.0347) 
B)19 个 聚 类 ( 刀 = 0.060$) 
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和 枚 卡 开 颖 六 力学 好 屠 放 新村 瑚 它 的 失 过 放 





这 个 过 程 开 始 只 有 一 个 自然 汉 类 (图 11-10a) 包 括 所 有 训练 集 。 在 第 一 次 相安 ， 它 分 裂 成 两 个 
聚 类 (图 11-10b), 然后 经 过 一 系列 相 变 直到 它 达到 6 个 聚 类 的 自然 集 。 当 所 有 到 类 都 分 改 
时 ， 下 “个 相 变 导 致 "爆炸 "。 图 UL-11 表示 相位 图 ， 显 示 随 退火 过 程 的 进行 平均 畸变 变量 变 
化 的 情况 ， 以 及 在 等 个 彬 阶段 ， 白 然 育 类 的 数目 。 在 这 个 图 中 ,平均 中 变 (相对 它 的 最 小 值 
规整 化 ) 是 对 温度 了 的 倒数 即 B( 相 对 于 它 的 最 小 值 规 攻 化 ) 画 出 的 。 两 个 坐标 轴 都 是 以 它们 
相关 的 对 数 形式 标 出 的 。 
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图 11-11 混合 Gauss 分 布 样本 的 相位 图 。 对 每 个 相位 显示 有 有 效 肾 类 的 数目 


和 EM 算法 的 类 比 

为 了 说 明确 定性 退火 算法 的 另 一 个 重要 方面 ， 假 设 我 们 将 联想 概率 PC(Y= y|X= x) 看 成 
一 个 二 值 随机 变量 的 期 望 值 ， 其 中 7 定义 为 

1 车 涛 向 量 x 被 归 人 码 向 量 了 
Ts = 人 理 刚 (102) 

从 这 个 观点 出 发 ， 我 们 认识 到 确定 性 退火 算法 的 两 步 选 代 是 第 7 章 描述 的 用 于 最 大 似 然 估 计 
的 期 望 最 大 (EM) 算 法 的 一 种 形式 。 特 别 在 第 一 步 中 计算 联想 概率 ， 我 们 有 与 它 等 价 的 求 期 
望 步 又。 在 第 二 步 最 小 化 Lagrange 丽 数 P” ， 我 们 有 与 它 等 价 的 最 大 化 步 又 。 

但 在 作 这 种 类 比 时 ， 注 意 确定 性 退火 比 最 大 似 然 佑 计 是 更 一 般 的 。 我 们 这 样 说 ， 是 因为 
与 最 大 似 然 估 计 不 一 样 ， 确 定性 退火 不 对 数据 的 固有 概率 分 布 作 任何 假定 。 事 实 上 ， 联 想 概 
率 是 由 最 小 化 Lagmage 函数 导出 的 。 
11.14 小 结 和 讨论 

在 这 一 章 中 我 们 讨论 利用 植 根 于 统计 力学 的 思想 作为 优化 技术 表示 和 学 习 机 器 的 数学 基 


础 。 这 里 考虑 的 学 习 机 器 可 分 类 如 下 : 
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*。 随机 机 器 ， 例 阁 Boltizmam 机 、sigmoid 信 度 网 络 和 Helnholz 机 。 

* 确定 性 机 器 ， 利 用 平均 场 通 近 从 Botfrmann 机 和 sigmoid 信和 度 网 络 导 出 。 

Boltamnann 凯 使 用 隐藏 的 和 可 见 的 靖 机 二 值 状态 的 昼 经 单元 ， 它 巧妙 地 利用 Gibbs 分 布 的 
良好 性 质 ， 从 而 具有 一 些 吸引 人 的 特征 : 

。 通过 训练 ,神经 元 所 显示 的 概率 分 布 和 环境 相 上 匹配 。 

” 网 络 提供 一 种 推广 的 方法 ， 可 用 于 搜索 、 表 示 和 学 习 的 基本 问题 (Hinton,1989)。 

” 如果 退火 进度 表 在 学 习 过 程 中 足够 慢 ， 则 网 络 保证 找到 状态 能 量 曲 而 的 全 局 最 小 值 

《Geman and Ceman ,1984 )。 

遗 央 的 是 退火 进度 表 太 慢 以 至 没有 实用 价值 。 但 是 ， 针 对 只 体 的 Boltmmann 机 学 习 过 程 
可 以 进行 加 速 ， 对 这 些 Botzmamn 机 我 们 无 需 进行 采样 算 法 或 者 应 用 平 沟 场 逼近 。 特 别 地 ， 
如 果 Bohzmann 机 隐 苦 神经 元 是 链 状 或 树 状 以 及 它们 的 硝 合 对 ， 学 习 可 在 多 项 式 时 间 完 成 。 
之 所 以 能 取得 这 峡 的 结果 ， 是 因为 应 用 了 了 统计 力学 中 熟知 的 “抽取 "算法 ， 它 是 一 个 简单 而 精 
致 的 过 程 ， 非 常 像 求 解 电阻 电感 电容 (RNLC) 电 路 一 样 ， 从 图 中 递归 地 删除 连接 和 节点 (Saul 
and Jordan, 1995,1996)。 

sigmoid 信 度 网 络 给 出 Boltanann 机 的 一 个 重要 改进 ， 它 消除 学 习 过 程 中 的 负 岗 (自由 运 
行 ) 阶 段 。 这 是 由 于 它们 不 用 Boltmmarn 机 中 对 称 韦 接 而 使 用 有 向 无 周 连 接 。 也 就 足 说 
Boleamann 机 是 一 种 具有 反馈 的 递归 网 络 ， 而 sigmoid 信 庶 网 络 旦 无 反馈 的 多 层 结构 ， 正 如 名 
字 所 障 示 的 ，sigmoid 信 度 网 络 和 由 Pearl(1988) 首 先 提 出 的 经 典 的 信 度 网 络 非常 接近 ， 因 而 
将 神经 网 络 的 研究 和 概率 非 理 模型 及 图 形 模型 联系 起 来 (Jordan, 1998; jordan et 中 . ,1998) 。 

Helmholtz 机 又 与 它们 不 同 。 它 的 发 展 受到 视觉 是 图 形 皮 反 (Hom, 1997; Hinton 信 
Ghahramani ,1997) 的 感想 的 雇 迪 。 特 别 在 反 向 运行 中 它 使 用 一 个 随机 的 产生 模型 把 一 个 场景 
的 抽象 表示 转化 为 一 个 深度 图 像 。 场 景 的 抽象 表示 ( 即 网 络 自己 关于 世界 的 视 党 知 识 ) 是 由 于 
前 向 运行 的 随机 识别 模型 学 刁 的 。 通 过 识别 模型 和 产生 模型 的 巧妙 结合 ( 即 前 向 / 反 向 投影 )， 
Heimholtz 机 起 到 自 监督 机 的 作用 ， 因 而 不 需要 教师 。 

接着 讨论 确定 性 机 器 ， 确 定性 Bolbmammn 机 是 由 Boltmann 机 导出 的 ， 它 用 两 个 随机 变量 
均值 的 乘积 圭 代 两 个 随机 变量 乘积 的 均值 ， 这 尼 平 均 场 通 近 的 朴素 形式 。 这 样 做 使 得 确定 性 
Boltzmann 机 比 标准 的 随机 Bolzmamn 机 快 许多 。 遗憾 的 是 在 实际 应 用 中 严格 限制 在 仅 含 一 个 
耻 藏 层 的 情况 。 在 Kappen and Rodriguez(1998) 中 ， 讨 论 到 在 对 Boltzmann 机 正确 应 用 平均 场 理 
论 时 ， 使 用 线性 响应 定理 计算 相关 人 性。 这 个 定理 的 本 质 在 于 应 用 其 线 必 响 应 的 通 近 玲 代 式 
(1.53) 的 Boltzamann 学 习 规 则 中 箱 制 和 自由 运行 时 的 相关 性 。 根 据 Kappen and Rodriguez 
《1998) 的 讨论 ， 新 的 学 习 过 程 可 应 用 于 含有 或 没有 隐藏 神经 无 的 网 络 。 

sigmoid 信 关 网 络 的 全 定性 形式 的 导出 是 应 用 平均 场 理 论 的 另 一 个 形式 ， 应 用 Jensen 不 等 
式 导 出 对 数 似 然 画 数 的 一 个 严格 下 界 。 进 一 步 ， 以 一 种 原则 化 的 方式 利用 姻 处 理 的 子 结构 优 
点 ， 理 论 上 使 得 这 类 神经 网 络 成 为 信和 度 网 络 之 外 的 另 一 种 重要 网 络 类 型 。 

在 本 章 我 们 还 讨论 两 个 优化 技术 : 模拟 退火 和 确定 性 退火 。 模 拟 退 火 的 突出 点 在 于 在 能 
量 曲面 上 进行 随机 移动 ， 从 而 使 得 骨 火 进度 圾 非常 慢 ， 这 样 使 得 在 许多 应 用 中 无 法 实际 使 
才 。 相 区， 确定 性 退火 将 随机 性 精 合 到 代价 函数 中 ， 从 一 个 较 高 温度 开始 ， 然 后 逐渐 降低 ， 
在 每 个 依次 的 温度 对 目标 函数 进行 确定 性 的 优化 。 但 是 ， 注 意 便 拟 退火 保证 到 达 全 局 极 小 ， 
而 确定 性 退火 还 没有 找到 这 种 保证 。 
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本 章 中 我 们 虽然 强调 应 用 优化 技术 和 随机 机 器 解决 无 监督 学 习 任 务 ， 但 如 果 需 要 也 可 以 


应 用 于 监督 学 习 任 务 。 
注释 和 参考 文献 


[] 


[21 
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在 11.3 中 描述 的 术语 "典型 分 布 "是 由 上 Willard Gibbs(1902) 在 《统计 力学 的 基本 原理 } 第 
一 部 分 33 页 上 创造 的 新 名 词 、 他 写 到 
“ 哲 表 示 的 分 布 …… 





亚 -e 
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看 来 代表 了 最 简单 可 以 想象 的 情况 ， 因 为 当 系统 包括 分 离 能 量 的 部 分 时 ， 它 的 分 布 和 
分 离 部 分 的 相位 的 分 布 律 相亲 ,其 中 末 和 下 为 常数 ， 且 百 为 正 。 分 布 的 这 个 性 质 极 
大 地 简化 了 讨论 ， 是 和 热力 学 极端 重要 关系 的 基础 。 当 一 个 整体 系统 在 相位 以 刚才 描 
述 的 方式 分 布 ， 即 当 概 率 (P) 指 标 是 能 量 (se) 的 线性 函数 ， 我 们 将 说 整体 是 典型 分 布 
的 ， 称 能 量 的 除数 豆 为 分 布 的 模 。 
在 物理 文献 中 式 (11.3) 通 常 称 为 典型 分 布 (Reif，1965) 或 Cibbs 分 布 (Landau and 
Likschiiz,1980)。 在 神经 网 络 文献 中 称 为 Gibbs 分 布 、Boltanann 分 布 和 Boltzmann-Gibbs 分 
布 。 
引入 温度 和 模拟 退火 到 组 合 优化 问题 的 想法 是 由 Kirkpatrick，Gelatt and Vacchi( 1983) 三 
人 和 Cerny(1985) 独 立 提出 的 。 
在 物理 环境 中 ， 退 火 是 自然 界 的 一 个 精细 的 过 程 。Kirkpatrick 等 在 1983 的 文章 中 讨论 
“熔化 "一 个 固体 的 概念 ， 这 涉及 升 高 温度 到 一 个 最 大 值 使 得 国体 的 所 有 粒子 处 于 液态 
时 能 够 随机 地 运动 。 接 着 降低 温度 ， 使 得 所 有 粒子 调整 到 具有 低能 基态 的 相应 格 点 。 
如 果 冷 却 太 快 ， 也 就 是 说 ， 在 每 一 湿度， 固体 没有 足够 时 间 达 到 热平衡 ， 这 样 得 到 的 
晶体 会 有 许多 缺陷 ， 或 物质 将 形成 无 晶体 序 的 玻璃 体 并 且 仅 为 局 部 最 优 结构 的 亚 稳 态 。 
“熔化 "这 个 概念 对 于 思考 吾 蒿 体 可 能 是 正确 的 方法 ， 或 许 对 考虑 组 合 优化 问题 的 计算 
也 有 帮助 。 但 是 当 讨 论 许多 其 他 应 用 领域 时 会 失误 (Beckemman,1997)。 例 如 ， 在 图 像 处 
理 中 ,如 果 我 们 升 高 湿度 使 得 所 有 粒子 能 够 随机 地 调整 自己 的 位 置 ， 就 会 入 失 图 
。 在 相应 的 冶金 学 意义 上 ， 当 退火 铁 或 岗 时 ， 我 们 必须 保证 退火 
温度 低 于 熔点 ;否则 将 会 毁坏 样本 。 

有 几 个 控制 治 金 退 火 重要 的 参数 : 

。 退火 湿度， 指示 金属 或 合金 加热 到 什么 温度 。 

。 退火 时 间 ， 指 定 保持 提高 温度 后 的 时 间 长 度 。 

。 逐 火 进度 表 ， 指 定 温度 下 降 的 速度 。 
在 描述 退火 进度 表 的 小 节 中 可 以 发 现 , 这 些 参数 在 模拟 退火 里 能 找到 和 它们 相对 应 的 
部 分 。 
Langevin 方程 (具有 时 变温 度 ) 提 供 了 另 一 个 由 Crenander(1983) 提 出 的 全 局 最 优化 算法 的 
基础 ， 随 后 由 Gidas(1985) 进 行 了 分 析 。ILangevin 方程 是 随机 微分 方程 ， 描 述 为 (Reif， 
1965) 
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其 中 w( 引 为 混 人 粘性 流 中 质量 为 m 的 粒子 的 速度 ，7 为 常数 ， 等 于 磨擦 系 数 和 质量 六 
的 比值 ，TF(1) 为 每 单位 质量 的 波动 力 。Langevin 方 穆 是 描述 非 平 衡 热 动力 学 的 第 一 个 
数学 方 穆 。 

对 更 复 条 的 和 理论 上 的 退火 进度 表 ， 佐 看 书 夭 Aarts and Korst(1989,pp.60 -75) 利 van 
Laarhoven and Aarts(1988,pp-62 一 71)- 

Gibhbs 抽样 在 统计 物理 中 称 为 Metopaolis 算法 的 “ 热 浴 " 形 式 。 白 从 在 Ceman and Geman 
《1984) 及 Gelfand and Smith(1990) 的 文献 中 正式 出 现 以 后 ， 它 被 广泛 应 用 于 图 像 处 理 、 
神经 网 络 和 统计 学 。 后 一 篇 文章 还 讨论 抽样 (或 Monte Cado) 的 其 他 方法 ， 这 些 方法 基 
于 对 边缘 概率 估计 的 数值 计算 。Hastings(1970) 给 出 了 Metmopolis 算法 的 推广 ， 而 Cibbs 
抽样 仅 是 它 的 特例 ， 提 到 了 它 在 解决 统计 中 数值 问题 的 潜在 应 用 。 

Boltamann 机 的 可 见 神经 元 可 以 被 分 成 输入 和 输出 神经 元 。 在 第 二 种 结构 中 Boltzmann 机 
是 在 教师 监督 下 进行 联想 ， 和 输入 神经 元 从 环境 接受 信息 而 输出 神经 元 报告 计算 结果 给 
最 终 用 户 。 
式 (11.39) 的 表达 式 适 合 于 Bottzmann 机 的 “ 开 " 和 “ 关 " 状 态 分 别 用 + 1 和 - ! 表示 。 如 果 
机 器 利用 1 和 0 分 别 表示 “ 开 " 和 "* 关 "状态 ， 我 们 有 


(x) = - > yaoxio 
传统 上 ， 相 对 箭 或 Kullback - Leibler 散 度 用 作 Balimann 机 的 性 能 指标 (Acley ee al ， 
1985; Hinton and Sejnowski,1986)。 这 个 标准 提供 环境 和 物理 内 部 模型 之 间 的 差异 的 度 
量 ， 定 义 为 









































已 :oz = 忆 enoe 人 () 
其 中 pe 为 网 络 被 箱 制 时 可 见 神经 元 在 状态 的 概率 ，p< 为 网 络 自由 运行 时 可 见 神经 
元 在 状态 的 概率 。 网 络 突击 权 值 被 调整 ， 使 D || ， 达 到 最 小 : 参看 习题 11.10。 
当 应 用 于 训练 集 时 ， 最 小 化 Kullhack - Leibler 散 度 原 则 和 最 大 似 然 原则 基本 上 等 价 。 为 
了 看 清 这 个 等 价 性 我们 注意 两 个 分 布 了 /和 8 的 Kullback - Leibler 之 间 散 度 由 
Pre =- 开 0P - 定 Aog(g) 
给 出 。 如 果 分 布 上 由 训练 集 确 定 ， 给 定 g 的 一 个 优化 模型 ， 第 一 项 是 常数 ， 第 二 项 则 
是 负 的 对 数 似 然 函 数 。 因 此 最 小 化 Kullback - Leihler 散 度 是 和 最 大 似 然 等 价 的 。 
信和 度 网 络 最 初 是 为 了 表示 专家 系统 中 的 概率 知识 而 引入 的。 在 文献 中 它们 也 指 Bayes 
网 络 。 
Helmholtz 机 属于 以 前 向 投影 和 反 向 投影 为 特征 的 一 类 神经 网 络 。 前 向 投影 的 思想 起 源 
于 Grosshberg(1980) 的 自 迁 应 共振 理论 研究 ; 也 可 参看 Carpenter and Crmssberg{1987)。 在 
这 个 模型 中 ， 前 向 自 适应 滤波 结合 反 向 模板 匹配 ， 使 得 产生 自 适应 共振 ( 即 放大 和 延长 
神经 活动 )。 与 Cmssberg 的 自 适应 共振 理论 相反 ， 对 于 试图 准确 捕获 输入 数据 的 固有 结 
构 的 产生 模型 ，Helmholtz 机 利用 统计 方法 把 自 监督 学 习作 为 一 种 确定 产生 模型 的 方法 。 
另 一 个 紧密 相关 的 工作 是 Luttrell(1994,1997) 的 工作 。 在 Lattrell(1994) 的 工作 中 ， 提 击 
了 "“ 拆 姓 Markov 链 ”folded Markov chain,FMC) 的 思想 。 特 别 ， 一 个 Mardeor 链 前 向 转移 之 
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后 ， 紧 接着 利用 同样 的 链 按 反 向 进行 道 转移 (利用 Bayes 定理 )。 在 Lattrell( 1997) 中 ， 寺 


论 FMC 和 Helmholtz 机 的 关系 。 





另外 一 些 相关 工作 包括 诸如 Kawato et al.(1993 ) 的 工作 ， 其 中 考虑 以 与 Heimholtz 机 相似 
但 没有 慨 率 关系 的 方式 前 向 5( 识 别 ) 寞 型 和 反 向 (产生 ) 模 型 ， 以 及 Mumford( 1994) 关 于 映 
射 Crenander 产生 模 卉 到 人 脑 中 的 提议 。 
在 Dayan and Hinoton(1996) 中 ， 担 发 大 其 不 同 种 类 的 包括 监督 方法 的 Helmholz 机 。 
[11] 确定 性 退火 已 成 功 应 用 到 许多 学 习 任务 : 
。 向 量 量 化 ( Rose et al. ,1992;Miller and Rose,1994) 
。 统计 分 类 设计 (Miller et ar ,1996) 
， 利用 混合 专家 的 非 线性 回归 (Rao et 中 . .1997a) 


。 隐藏 Markov 模型 的 语音 


一 个 隐 Markov 模型 类 似 于 Markov 链 ， 














识别 (Rao et al. ,1997b) 
为 它们 从 一 个 状态 转移 到 另 一 个 状态 都 是 根据 


概率 的 。 但 它们 有 一 个 重要 区 别 ， 在 Markov 链 中 ,给 出 符 导 的 产生 是 确定 的 。 另 一 方 
面 ， 在 隐 Maqkov 模型 中 ， 答 出 符号 是 概率 性 的 ， 这 样 所 有 符号 都 可 能 达到 每 一 状态 。 
因此 对 隐 Markov 模型 的 每 一 状态 ， 我 们 有 所 有 输出 符号 的 概率 分 布 。 隐 Markov 模型 的 
讨论 可 参见 Rabiner(1989) ，Rabiner and Juang(1986) 和 JeHnek(1997)。 


习题 
Markov 链 

11.1 从 状态 
步 转移 概率 记 为 PP。 
证 明 


了 到 状态 站 的 mm 
利用 归纳 法 


0 = 


和 

11.2 图 11- 上 表示 随机 行走 
过 程 的 状态 转移 图 ， 其 中 转移 概率 
忆 大 于 零 。 图 中 所 示 的 无 限 长 
Markov 链 是 不 豆 约 吗 ? 说 明 你 回答 
的 理由 。 

11L.3 考虑 图 11-13 所 描绘 
Markov 链 ， 它 是 可 约 的 。 找 出 包含 
在 这 个 状态 转换 奖 中 的 各 个 状态 
类 。 

11.4 计算 图 11-14 所 示 的 
Markov 链 的 移 定 态 的 概率 。 
模 氢 技术 

11.5 ”Metropolis 算法 和 Gibbs 
抽样 器 代表 两 类 不 同 的 模拟 大 规模 














问题 的 技术 。 讨 论 它 们 之 间 的 基本 相似 点 和 不 同 点 。 














5 记 辣 人 
人 @ 二 > 
/ 
后 - 
图 11-13 
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形 1 革 





11.6 ”本题 中 考虑 几 模 拟 退 火 
尿 解 旅行 商 回 题 (traveling salesaman ~ 
pmoblem,TSP)。 条 件 如 下 : 

。 YN 个 城市 

， 每 吴 个 城市 间 旧 离 为 d 人 

* 旅行 路 线 为 一 个 闭合 的 路 

径 ， 只 访问 每 个 城市 一 次 

中标 是 寻 线 共有 最 小 总 长 度 工 4 
的 旅行 路 线 ( 即 排列 城市 访问 的 硕 ( 埠 
序 )。 在 这 个 习题 中 ， 不 同 的 可 能 旅 
行路 线 称 为 构 形 ， 而 需 最 小 化 的 代 


售 














价 函 数 为 旅行 路 线 的 总 长 度 。 ~ 

( 相 届 计 出 一 种 产生 合法 构 形 的 4 
选 代 方法 。 的 于 

(b) 旅 行路 线 总 长 度 定义 为 

Y 
to = 立 deeorem 
其 中 己 表 示 一 个 车 换 且 P(R+ 1) = P(1)。 内 此， 剖 分 函数 为 
了 -= ee 


其 中 了 为 入 制 参数 。 建 立 用 于 TSP 的 模拟 退火 算法 。 
Boltzmann 机 


11.7 考虑 一 个 在 温度 了 运行 的 随机 二 值 神经 元 j 它 从 状态 % 翻转 到 状态 - 和 的 概率 


为 
和 汪汪 
7 ep 一 人 A 盏 177 
其 中 AR 为 翻转 所 导致 的 能 量 改 变 。Boltanann 机 的 总 能 屋 定 义 为 
芝 =-- 冯 忆 人 


其 中 你 为 从 神经 元 ;i 到 神经 元 7 的 突 希 权 值 ， 理 ， = 友和 z=0o 
(a) 证 明 A 玉 = -2xz ， 其 中 u 为 神经 元 ) 的 诱导 局 部 域 。 


《D) 因 此， 证 明神 经 元 ) 从 初 态 = - 1 翻转 到 zx = + ] 的 概率 为 (1 + exp( =- 251 了))。 

(oj 证 明 当 神 经 元 ; 从 初 态 为 + 1 查 转 到 状态 - 1 时 {b) 中 的 公式 仍然 正确 。 

J1.8 ”推导 式 (11.49) 中 对 数 似 然 函 数 L(w} 关 于 Boltmnann 机 突 触 权 值 几 的 导数 公式 。 

11.9 Gibbs 分 布 可 以 利用 和 直 完 备 的 数学 方法 推导 出 ， 而 不 依赖 于 统计 物理 的 概念 。 特 
别 旨 ,一 个 两 步 Maqkev 链 模 型 的 随机 机 器 可 用 来 导出 形成 Boltmann 机 特殊 性 质 的 假设 
(Maraika,1987 )。 这 一 点 也 不 令 人 惊奇， 因为 作为 Boltmnamn 机 运行 的 模拟 退火 本 身 具 有 














Markov 性 质 {van Taarhoven and Aarls,1988)。 


考虑 在 一 个 随机 机 器 中 神经 元 的 状态 转移 模型 由 两 个 随机 过 程 组 成 
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。 第 一 个 过 程 坎 定 尝试 哪个 状态 转移 。 

。 第 二 个 过 程 决定 这 次 转移 是 否 成 功 ， 

(a) 和 用 示 状 态 转移 慨 率 户 为 两 个 因子 的 乘积 ， 即 

丁 =rg 对 了 着 

证 明 ps = 1- 2 re 。 

(9) 假 设 尝试 率 矩 阵 是 对 称 的 ， 

Try 
并 且 假 设 尝试 成 功 的 概率 满足 鳌 补 条 件 转移 概率 的 性 质 ， 
9 = 多 

由 两 个 假设 证 明 六 ru(gm + gm - 交 ) = 0。 

(假定 坊 关 0， 利用 问题 (a) 中 的 结果 证 明 % = je 

《dg 最 后 ， 进 行 变 量变 换 : 瑟 = - Tlogr, + 了 ， 其 中 了 和 T 为 任意 常数 。 由 此 推导 ， 
， 1 囊 ， 局 1 
(Dr = 二 en 人 - 纯 )。 ( 问 Z = en 一 少 } 。 由 其 中 A= 酝 -到 。 

(@ 你 能 从 这 些 结果 中 得 出 什么 结论 ? 

11.10 在 11.7 节 我 们 利用 最 大 似 然 是 数 作为 推导 式 (11,53) 所 描述 的 Boltzmann 学 习 规 


则 的 准则 。 在 这 个 习题 中 我 们 利用 别 的 准则 重新 考虑 这 个 学 习 规 则 : 由 第 10 章 的 讨论 ， 两 
个 概率 py 和 pz 的 Kullback-Leibler 散 度 定 义 为 


2 (全 

其 中 对 所 有 可 能 的 状态 s 求 和 。 概 率 pz 去 示 网 络 在 夭 制 ( 正 向 ) 状 态 时 可 见 神经 元 处 于 状态 
a 的 概率 ， 概 率 p。 表示 网 络 在 自由 运行 ( 负 疝 ) 状 态 时 可 见 神经 元 处 于 状态 n 的 概率 。 利 
也 : |, 重新 推导 Boltzmann 学 习 规 则 。 

1 .11 考虑 Boltzmann 机 的 可 厚 神 经 元 分 成 输入 神 经 元 和 输出 神经 元 。 这 些 神经 元 的 状 
态 分 别 表 示 为 < 和 Y。 隐 藏 神经 元 状态 记 为 g。 这 个 机 器 的 Kallback-Teibter 散 庆 定义 为 

六: = 之 于 马公 

其 中 本 为 输入 神经 元 在 状态 的 慨 率 ，p7 为 给 定 输入 状态 "输出 神经 元 被 稍 制 在 状态 Y 的 
条 件 概率 ，p5。 为 仅 输 人 昼 经 被 畏 制 在 状态 “时 处 于 热平衡 中 的 输出 神经 元 状态 为 y 的 条 件 
概率 。 和 前 面 的 一 样 ， 加 号 和 减 号 上 标 分 别 表示 正 向 ( 乔 制 ) 和 负 向 (自由 运行 ) 条 件 。 

(a) 对 输入 、 隐 藏 和 输出 神经 元 的 Boltmann 机 导出 公式 玉 * |， 。 

(b) 对 于 这 种 网 络 配 置 经 过 重新 解释 相关 性 站 和 pi ， 证 明 调 整 突 触 权 值 由 的 Boltzanann 
学 习 规则 仍 可 以 被 表示 成 和 式 {(11.53) 同 样 的 形式 。 
sigmoid 信和 度 网 络 

11.12 概述 Bolzmann 机 和 sigmoid 信 度 网 络 之 癌 的 相似 性 和 差异 。 

11.13 在 习题 11.9 中 ， 我 们 前 明了 Boitamann 机 可 描述 为 两 步 Markov 链 模 型 。sigmoid 
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信 上 度 网 络 是 否 可 以 描述 为 - -个 Markoy 链 借 型 ? 说 明 你 的 结论 的 理由 。 

11.14 令 io 表示 sigmnoid 中 从 神经 元 半 到 神经 元 7 的 突 触 权 值 ， 用 +1 和 - 1 分 别 表 示 
“ 开 " 币 关 " 状 态 。 如 果 sigmoid 佑 度 网 络 利用 1 和 0 表示 神经 元 开 状态 和 关 状 态 ， 则 令 由 表 
永 相应 的 突 裔 权 值 ， 证 明 使 用 下 面 的 变换 w, 可 以 转化 成 zs 


om 对 0<i<y 





ao = = 0 十 2 ,人 
最 后 一 行 描 的 是 神经 怀 了 的 仿 置 值 、 ， 
11.15 在 sigmoid 信 度 网 络 中 我 们 确认 概率 已 (和 = 画 1X = 和) 为 Cibbs 分 布 ， 概 率 咏 . 
= 抵 ) 为 相应 的 剖 分 昂 数 -验证 这 两 个 结论 的 正确 性 。 
Helmholtz 机 
11.16 HeImheltz 机 在 识别 异型 和 产生 模 雹 中 都 没有 反馈 。 如 果 两 个 模型 的 任何 一 个 中 
允许 使 用 反馈 ， 则 网 络 的 运行 会 怎样 ? 


歼 定 性 Botzmann 机 


11.17 如 同 习 题 11.10 中 所 讨论 ，Boltzmann 机 在 概率 空间 作 梯 度 下 降 ( 关 于 权 值 空间 ) 。 
确定 性 Boltzmarn 机 对 什么 丽 数 作 樟 度 下 降 ” 你 可 参考 Hinton(1989) 讨 论 这 个 问题 。 

1l.18 考虑 具有 非 对 称 权 值 由 关 邮 的 递归 网 络 。 如 果 每 次 权 值 更 新 后 它 的 长 度 向 零 衰 
碱 一 个 很 小 的 比例 ， 讨 论 确定 性 Boltzamann 机 学 习 算 法 将 如 何 自动 便 网 络 成 为 对 称 的 (Hinton ， 
1989) 。 
确定 性 sigmoid 信 度 网 络 

44.19 ”证明 式 (11.77) 左 边 和 右边 表达 式 的 益 等 于 分 布 0( 苞 = 区 | 筷 = 两) 和 P 己 (区 = 部 | 
马 = 互 ) 之 间 的 Kullback-Leibler 散 度 。 

11.20 在 式 (14.89) 中 的 sigmoid 函数 的 变量 定义 确定 性 sigmoid 信 度 网 络 中 神经 元 /的 
诱导 局 部 域 W， 它 和 用 反 向 传播 算法 训练 的 多 层 感 知 器 中 神经 元 由 应 的 话 导 局 部 域 有 什么 差 
蜡 ? 
确定 性 退火 

11.21 在 1.13 节 中 我 们 利用 信息 论 方法 讨论 确定 性 退火 的 思想 。 人 确定 性 退火 的 思想 
也 可 以 基于 第 10 章 讨论 的 最 大 粹 原理 用 原理 化 的 方式 产生 。 说 明 第 二 种 方法 的 基本 原理 
《Rose，1989)。 

11.22 《a) 利 用 式 (11.97) 和 式 (11.98)， 推 导 式 (11.99) 所 给 出 的 Lagrangc 画 数 六 的 结 
果 ， 该 结果 是 用 联想 概率 的 Gibbs 分 布 得 到 的 。 

(b) 利 用 本 题 中 (a) 的 结果 ， 导 出 式 (11.101) 给 出 的 严 " 关于 码 向 量 y 取 最 小 值 的 条 件 。 

(ec) 应 用 式 (11.101) 的 最 小 化 条 件 到 式 (11.91) 的 平方 哺 变 度量 ， 评 论 你 的 结果 。 

11.23 考虑 数据 集 为 混合 Gauss 分 布 ， 在 这 种 情况 下 ， 怎 样 才 能 使 得 利用 确定 性 退火 比 
利用 最 大 似 然 估 计 有 优越 性 ? 

11.24 在 本 题 中 我 们 探讨 基于 神经 网 络 的 模型 分 类 中 确定 性 退火 的 应 用 (Miler et al. ， 



























































表 区 无 多 六 力学 上 旺 悦 部 狐 可 瑚 它们 内 过 近 437 








1996)。 输 出 层 的 神经 元 7 的 输出 记 为 玉 (z)， 其 中 x 为 输入 向 最 。 分 类 次 策 是 基于 最 大 判别 
式 而 (X)。 
(a) 对 于 概率 日 标 哨 数 ， 考 虑 


= 诈 届 忆 P(xe 且 ) 甩 0 
人 JE 可 

其 中 9 为 带 标号 向 量 的 训练 集 ，x 表示 输入 向 量 ，% 为 它 的 类 别 标识 ，P(xE 锚 ,) 为 输 人 向量 

x 和 类 别 区 域 免 , 的 联想 概率 。 利 用 第 10 章 讨 论 的 最 大 灶 原 理 ， 写 出 P(xE 及 , ) 的 Cibbs 分 


布 





(b) 令 < 已 > 表示 错 分 类 代价 的 均值 。 写 出 在 联想 概率 P(xE 锅 )) 的 精 为 -- 常 值 吾 的 约 . 钙 ] 
束 下 最 小 化 < 已 > 的 Lagrange 函数 。 








第 12 章 神经 动态 规划 


12.1 简介 


在 第 2 章 ， 我 们 认识 学 习 的 两 种 主要 范例 : 有 教师 学 习 和 无 教师 学 习 。 无 教师 学 习 的 范 
例 又 可 以 细 分 为 自 组 织 (无 监督 ) 学 习 和 增强 式 (reinforcement) 学 避 ， 从 第 4 章 到 第 7 章 ， 讨 论 
有 教师 学 习 或 监督 学 习 的 不 同形 式 ， 从 第 8 章 到 第 11 章 讨论 监督 学 习 的 不 同形 式 。 在 这 一 
章 里 ， 我 们 讨论 增强 式 学 习 。 

监督 学 习 是 在 “教师 "教导 下 进行 的 “ 认 知 ”学习 问题 : 它 依 赖 于 一 组 恰当 输入 -输出 样本 
的 可 用 性 ， 这 些 样 本 能 够 反映 运行 环境 。 与 此 相反 ， 增 强 式 学 习 是 一 种 “行为 "学 习 问题 : 通 
过 学 习 系 统 和 环境 的 交互 作用 完成 任务 ， 尽 管 存在 不 确定 性 ， 但 学 习 系 统 仍然 希望 在 环境 中 
达到 特定 日 标 (Barto et 相 . ,1983; Sutton and Barto,1998) 。 无 教师 情况 下 进行 的 交互 使 得 增强 式 
学 习 特 别 适 会 代价 很 高 或 很 难 (如 果 不 是 不 可 能 ) 我 全 一 组 满意 的 输入 - 输出 样本 的 动态 情 
说 。 








有 两 种 途径 研究 增强 式 学 习 0 ， 概 述 如 下 : 

1. 传统 方法 。 通 过 惩罚 和 奖励 的 过 程 进行 学 习 以 期 达到 高 度 熟 练 行为 的 月 标 。 

2. 现代 方法 。 它 基于 称 为 动态 规划 的 一 种 数学 方法 ， 通 过 考虑 将 来 可 能 的 但 实际 并 未 
经 历 的 阶段 而 决定 一 系列 的 行动 ; 这 里 强调 的 是 规划 (planning)。 

我 们 讨论 的 重点 是 现代 增强 式 学 习 。 

动态 规划 (dynamic programming) 忆 技术 处 理 的 古 这 样 一 种 情况 : 分 阶段 做 决策 ， 在 作 下 
一 个 决策 之 前 在 某 种 程度 上 能 够 预测 每 个 决策 的 结果 。 这 种 情况 的 一 个 关键 方面 是 个 能 孤立 
地 做 出 决策 。 相 反 ， 现 在 对 低 代价 的 希望 必须 被 将 来 尚 代价 的 失望 所 抵消 ( 即 不 能 仅 追 求 当 
前 的 低 代 价 )。 这 是 -. -个 信任 冉 值 (credit assinment) 问题 ， 因 为 信和 仔 或 责任 必须 赋值 给 一 组 相 
互 作用 的 决策 中 的 每 一 个 决策 。 为 了 最 优 的 规划 ， 需 要 在 眼前 代价 和 将 来 代价 中 取得 有 效 的 
折 中 。 这 种 折 中 确实 被 动态 规划 的 形式 抓 住 。 特 别 ， 动 态 规划 解决 一 个 问题 : 当 可 能 需要 牺 
短期 性 能 的 情况 下 ， 系 统 怎样 学 习 提 高 长 期 性 能 ? 

遵循 Bersekas and Tsitsiklis(1996),， 我们 称 增强 式 学 习 的 现代 方法 为 神经 动态 规划 。 这 样 

做 主要 有 两 点 原因 ， 

，。 动态 规划 提供 它 的 理论 基础 。 

，。 神经 网 络 提供 它 的 学 习 能 力 。 

神经 动态 规划 一 个 简洁 明确 的 定义 是 (Bertsekas and Tsitsiklis,1996) 

种 经 动态 规划 使 一 个 系统 通过 观察 自身 的 行为 来 学 会 怎 套 做 出 好 的 决策 ， 并 且 使 它 能 通 
过 使 用 增强 式 睹 入 机 制 以 改进 自己 的 行动 。 


在 离线 方式 下 使 用 Monte Carie 仿真 可 以 得 到 对 行为 的 观察 。 使 用 迭代 的 优化 系统 通过 增 
强 获得 对 行动 的 提高 。 
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动态 规划 有 两 个 主要 特征 : -- 个 回 有 的 谋 散 时 间 动 态 系统 ， 和 一 个 时 间 上 和 故 加 的 代价 函 
数 。12.2 节 寺 论 这 两 个 特征 。 随 后 在 12,3 节 讨 论 Beltman 最 优 什 方程 的 公式 ， 它 在 动态 规划 
中 扮演 很 重要 的 角色 。 在 12.4 节 厚 12.5 节 ， 讨 论 动态 规划 计算 最 佳 策略 的 两 种 不 同方 法 ， 
它们 是 策略 迁 代 和 值 迁 代 。 

在 12.6 节 ， 我 们 给 出 神经 动态 规划 涉及 的 问题 的 综述 。 这 个 综述 导致 装 逼 近 策 略 选 代 
和 由 - 学习 的 讨论 ， 这 使 它们 适宜 利用 神经 网 络 实现 函数 逼近 。 这 两 个 算法 将 分 别 在 12.7 
节 和 12.8 节 讨 论 。12,9 节 提出 一 个 使 用 Q - 学 习 的 计算 机 实验 。 

本 章 在 !2,10 节 给 出 最 后 的 评价 作为 结束 。 


12.2 ”Markov 决策 过 程 


考虑 一 个 学 习 系统 或 主体 (agent) 以 图 12-1 的 方式 和 环境 相互 作用 。 系 统 依照 一 个 有 限 
的 离散 时 间 Markov 决策 过 程 运 行 ， 这 个 Markorv 次 策 过 程 有 以 下 特性 : 
*。 环境 依 概 率 占据 一 组 有 限 的 离散 状态 而 演化 。 但 状态 
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是 注意 状态 并 不 包含 过 去 的 统计 特性 ， 尽 管 过 去 
的 统计 特性 对 学 习 系 统 是 有 用 的 。 Ai 

。 对 于 每 一 个 环境 状态 ， 学 习 系 统 可 以 采取 一 组 有 
很 的 可 能 行动 。 刺 境 | 生动 

。 每 当 学 习 系统 采取 一 次 行动 ， 就 会 引起 一 定 的 代 
价 图 12-1 学 习 系 统 与 环境 交 了 的 框图 


” 观察 状态 、 采 取 行 劲 和 引发 代价 都 是 在 离散 的 时 间 里 发 生 的 。 

在 当前 讨论 的 背景 下 , 环境 的 状态 定义 为 学 习 系 统 从 它 和 环境 交 开 中 获得 的 过 去 全 部 经 
村 的 总 和 ， 它 包含 诸如 学 习 系统 预测 环境 未 来 行为 所 必需 的 信息 。 设 表示 在 时 间 步 n 的 状 
态 的 随机 蛮 量 为 所 ， 在 时 间 步 = 的 实际 状态 为 x(n)。 有 限 个 状态 的 集合 用 吧 表示 。 动 态 规 
划 令 人 惊奇 的 一 个 特点 是 它 的 适用 性 很 少 依赖 状态 的 性 质 。 因 此 我 们 可 以 不 对 状态 空间 结 梅 
作 任何 假设 而 进行 。 

例如 ， 对 于 状态 i， 一 组 可 采取 的 行动 ( 即 学 习 系 统 作 用 于 环境 的 输 和 人) 设 为 中 , = | ax 上 ， 
这 里 的 学 习 系 统 采取 的 行动 mw 的 第 二 个 下 标 丰 仅仅 说 明 当 环 境 在 状态 时 ， 可 以 有 不 止 一 个 
可 能 的 行动 。 鲍 如 ， 采 取 行 动 oa 将 环境 状态 从 ; 变化 到 7 状态 本 质 上 为 概率 性 的 。 然 而 ， 最 
重要 的 是 ， 从 状态 ;到 状态 /的 转移 概率 完全 依赖 于 当前 状态 ; 和 相应 的 行动 ws 。 这 就 是 我 
们 在 第 11 章 里 讨论 的 Markov 性 质 。 这 个 性 质 是 很 关键 的 ， 因 为 它 意味 着 环境 的 当前 状态 为 
学 习 系 统 提供 必需 的 信息 以 决定 采 康 什么 行动 。 

用 一 个 随机 变量 4, 表示 学 习 系统 在 在 时 间 步 ” 时 采取 的 行动 。 用 放 (e) 表 示 在 时 间 步 
叶 时 由 于 采取 行动 。 而 使 从 : 状态 转移 到 ) 状态 的 转移 概率 ， 其 中 4, = c。 由 Markov 性 质 我 
们 有 
































pifa) = P( 世 = 了 = = ao) (12.1) 
出 概率 论 ， 转 移 概率 声 (e) 必 须 满足 以 下 两 个 条 件 : 





形 上 动 悉 规 境 AA1 





pi(a)a0 对 于 所 有 “上 和 /7 {12.2) 

pi(e) =1 对 于 所 有 上 (12.3》 
对 于 给 定数 日 的 状态 和 转移 概率 学 习 系 统 随时 间 采 取 行 动产 生 的 环境 状态 序列 形成 一 个 
Markov 链 。 我 们 在 第 11 章 讨 论 过 Markov 链 。 

当 从 -一 个 状态 转移 到 另 一 个 状态 时 , 学 习 系 统 招 笃 一 个 代价 。 因 此 在 行动 ws 作 用 下 产 
年 的 从 状态 ; 到 状态 / 的 第 ”= 步 转移 ， 学 习 系 统 招 致 的 代价 表示 为 Yg(i an, 门 ， 这 里 的 
gf ) 是 -- 个 规定 的 丽 数 ，yY 是 折扣 因 了 于 (discount factor) ，0<Y< ls 通过 调节 7Y， 可 以 控 
制 学 习 系 统 对 它 白 己 行动 的 氮 期 和 长 期 结果 考虑 的 程度 - 在 和 极端 情况 ， 当 Y= 0 系统 是 短视 
的 ， 它 只 考虑 它 的 行动 的 当前 结果 。 以 后 将 忽略 这 种 极端 值 ， 也 就 是 限于 讨论 0<yY<1l。 当 
Y 接 近 1 时 ， 末 来 的 代价 在 采取 最 优 行动 时 变 得 更 为 重要 。 

我 们 的 兴趣 在 于 形成 一 种 策略 (poliey) ， 这 时 策略 指 的 是 状态 到 行 芭 的 映射 。 也 就 是 说 ， 
给 出 坏 境 当前 状态 的 知识 ， 一 个 策略 是 学 习 系 统 决定 做 什么 所 使 用 的 一 个 规则 。 策 略 表 示 为 

开 二 | (12.4) 
其 中 心 指 的 是 在 时 间 步 =0，1，2，…， 状 态 忆 = 并 到 行动 4。 = da 的 上 映射。 这 个 映射 满足 
mu 人 DG 加， 对 所 有 状态 iE 8 
这 里 史 ; 表示 在 状态 ; 时 学 习 系统 能 够 采取 的 行动 集合 。 这 样 的 策略 是 允许 的 。 

策略 可 以 是 不 稳定 的 或 稳定 的 。 不 铭 定 的 (nonstationarmy) 策 略 是 随时 间 变 化 的 ， 止 如 公式 
《12.4) 所 示 。 但 当 策略 不 随时 间 变 化 时 ， 即 
开 = js 
就 说 策略 是 夭 定 的 (stalionary)。 换 名 话说， 稳定 的 策略 每 次 遇 到 一 个 特定 的 状态 时 采取 相同 
的 行动 。 对 于 稳定 的 策略 ， 固 有 的 Markov 链 既 可 以 是 不 平稳 的 也 可 以 是 平稳 的 。 在 不 平稳 
的 Markov 链 上 也 可 使 用 稳定 的 策略 .但 这 是 不 太 明智 的 。 如 果 使 用 稳定 的 策略 上 ， 那 么 状态 
序列 | 下 ,2 = 沾 12,…| 形 成 一 Markov 链 ， 其 转移 概率 为 启 (P( 让 )，R( 关 表示 一 个 行动 。 由 
子 这 个 原因 这 个 过 程 称 为 Markov 决策 过 程 。 
基本 问题 

动态 规划 问题 分 为 有 限 范 围 和 无 限 范围 两 种 。 青 限 范围 (finite-horizen) 问 题 中 在 有 限 的 阶 
段 内 对 代价 累积 。 无 限 范 国 (infinite-borizony 问 题 中 在 无 限 的 阶段 内 对 代价 暴 积 。 无 限 范围 问 
题 为 有 限 范 围 但 数目 非常 大 的 问题 提供 一 个 合理 的 逼近 。 国 为 折扣 保证 对 于 任何 策略 所 有 状 
态 的 代价 都 是 有 限 的 ， 这 样 无 限 范围 问题 有 着 特殊 的 应 用 。 

在 无 限 范围 河 题 中 ， 从 初始 状态 瑟 = 主 开 始 并 使 用 策略 r= fi， 总 的 期 望 代价 定义 为 

TD= 引 27eCcwCc) ED = (12.5) 


其 中 期 望 值 是 对 Markov 链 1 艺 , 4} 取 值 。 函 数 亚 ( 间 思 做 策略 x 从 状态 计 开 始 的 costrto go 
函数 。 它 的 最 优 值 记 为 六 (让 定义 为 

J (站 = min 太 (让 (12.6) 
当 策 略 稳 定时 ， 即 == 所 ，A，2，……， 我 们 用 符号 严 ( 间 代理 产 (， 并 当下 列 条 件 成 立 
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时 说 & 中 最 佳 的 : 
并 (站 = 三 ( 有 对 于 所 有 的 初始 状态 (12.7) 

我 们 可 以 对 动态 规划 的 某 本 问题 做 如 下 总 结 : 

给 定 描述 学 习 系统 和 环境 相互 作用 的 稳定 Markov 决策 过 程 ， 找 到 一 个 稳定 的 策略 x = 
jpspspei 使 对 所 有 的 初始 状态 证 有 最 小 的 cosLio-go 副 数 产 (i)。 

注意 ,在 学 习 过 程 中 学 习 系统 的 行为 可 以 随时 间 改 变 。 介 是 学 习 系 统 寻找 的 最 优 策略 是 
稳定 的 ( Watkins,1989)。 
12.3 Bellman 最 优 准 则 


动态 规划 技术 依赖 时 功 于 Bellman(1957) 的 通称 为 最 优 原则 (Principle of optimality ) 的 非常 
简单 的 忠 想 。 这 个 原则 可 简单 陈述 为 (Beliman and Dreyfus ,1962) : 

一 个 最 优 策略 有 这 样 的 性 质 ， 无 论 初始 状态 和 初始 决策 是 什么 ， 对 于 第 一 个 决策 所 导致 
的 状态 ， 剩 余 决 策 必 须 成 为 最 优 策略 。 
正如 这 里 使 用 的 那样 ， 一 个 “决策 "(decision) 是 在 特定 时 间 的 一 种 控制 选择 ， 一 个 “ 策 
略 ”(pPolicy) 是 整个 控制 序列 或 控制 男 数 。 

为 用 数学 公式 表示 最 优 原则 ， 考 虑 一 ” 育 限 范围 问题 ， 它 的 cost-to-go 函数 定义 为 


0O6)》 = 下 mx + 瑟 人 和) (2.8) 


其 中 天 是 范围 ( 即 阶段 数目 ) ，&x( 如 ) 是 最 终 代价 。 给 定 Za ， 式 (12.8) 中 的 期 望 值 是 对 剩余 
状态 而 ，…， 取 -+ 求 出 的 。 现 在 我 们 可 以 止 式 陈述 最 优 原 则 如 下 ( Bertsekas,1995b) : 

= | 果品 作为 基本 有 限 范围 问题 的 最 优 策略 。 假 设 使 用 最 优 策略 天 " 
时 ， 给 定 的 状态 忆 发 生 的 概率 为 正 。 考 虑 当 环境 在 时 刻 站 时 状态 为 所 的 子 问 题 ， 假 设 我 
们 项 望 最 小 化 对 应 的 costL-tca 函数 


























全 严 


扩 和 = 丰 本 (和 + 交 革 (和 (和 ， 玫 ) (2.9) 
其 中 恬 =0，1，…， 碟 -1。 这 时 项 断 策略 | ivPR ii 对 于 子 问题 是 最 优 的 。 


通过 下 面 的 讨论 ， 我 们 可 以 间 观 地 说 明 最 优 原 则 的 合理 性 : 如 果 截 断 策略 1P ,um…， 
疏 - 二 不 是 如 陈述 的 那样 为 最 优 ， 那 么 一 旦 在 时 刻 到 达 六 状态， 通过 简单 转换 到 对 于 子 问 
题 最 优 的 策略 ， 我 们 可 以 减少 costto-gp 丽 数 灰 ( 各 )。 

最 优 原则 基于 “分 而 治之 "(divide and conquer) 的 工程 概念 。 基 本 上 ， 一 个 复杂 的 多 阶段 
规划 或 控制 问题 的 最 优 策略 ， 可 通过 以 下 处 理 构造 : 

。 构造 一 个 仅 包含 系统 最 后 一 个 阶段 的 “尾部 子 问题 “tail subpmbiem ) 的 最 优 策略 。 

，* 扩展 最 优 策略 至 包含 系统 最 后 两 个 阶段 的 “尾部 子 问题 "。 

*。 凡 这 种 方式 继续 这 种 过 程 ， 直 到 处 理 完整 个 问题 。 


动态 规划 算法 
在 前 面 描述 过 程 的 基础 上 ， 我 们 可 以 提出 动态 规划 算法 ， 它 从 时 期 w - 1 到 时 期 0 反 向 
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处 理 。 令 = jp ,和 uc 表示 允许 策略 。 对 每 一 个 = 0，1， 大 -1 令 m= lu， 
Psitocil 令 厂 (到 ) 表 示 从 时 间 = 的 状态 不 开始 到 时 间 天 的 (K - 阶段 问题 的 最 优 
代价 ; 即 

三 (= minly 全 ， | 可 CD) + 冯 ee 各 和 (12.10) 
它 皮 示 式 (12.) 的 最 优 形式 。 考 虑 到 x = (mx ) 和 部 分 展开 式 (12.10) 的 右边 和 ， 我 们 可 
以 与 成 





用 (》 = min 酝 ee 


Ce 


起 =] 
+ 写 auC), 
- mn 吾 | 人 (CD Ch 
+ min ， 瑟 ， acoysoemoexe] 


= min 下 [so 《和 Ca (12.11) 
在 最 后 一 行 ， 使 用 了 式 (12. 10) 的 定义 ， 以 ”+1 代替 m。 现在 我 们 假设 对 某 一 = 和 所 有 的 
郊 :1 有 
= (0) 《12.12》 
那么 式 (12.1) 可 写成 
大 (五 ) = mi 到 : 2 《12.13) 
如 果 式 (12.12) 对 所 有 抱 大 立 那么 下 武 对 所 有 部 也 显然 成 立 ， 
也 ) = 灰 ( 和 ) 














此 ， 可 从 (12.13) 导 出 
有 (到 ) = 加 18o( 各 as 人 了) 于) 二 克 相 (下 )] 


我 们 可 以 正式 陈述 动态 规划 算法 如 下 ( Bertsekas,1995b) : 


对 每 一 个 初始 状态 ， 基 本 有 限 范 围 问 题 的 最 优 代价 六 (2 如) 等 于 矶 (86)， 其 中 
通 数 jo 从 下 面 算 法 的 最 后 一 步 得 到 ， 
交 ( 和 ) = min 可 [go( 和 各) 各 + 了 (下 ] 《12.14)》 


按时 间 反 向 运行 ， 且 





天 (不 ) = Cax) 
另外 ， 若 避 使 得 式 (12.14) 的 右边 对 于 任意 和 总 为 最 小 ， 那 么 策略 下 = 和 国 
RE 是 最 优 的 。 
Belman 最 优 性 方程 
以 其 基本 形式 ， 动 态 规划 算法 处 理 有 限 范 围 问题 。 我 们 感 兴趣 的 是 推广 这 个 算法 的 用 





























名 | 





444 友 妇 并 





途 ， 即 处 理 在 稳定 策略 x= impop…} 情 况 下 ， 式 (12.5) 的 cost-to-go 函数 所 描述 的 无 限 范围 
折扣 闸 题 。 为 了 达到 这 一 点 ， 我 们 做 下 面 两 件 事 ， 

* 反 转 算法 的 时 间 索 引 ， 使 得 它 和 折扣 问题 对 应 。 

， 定义 代价 品 ( 蕊 , 风 ) ,和 如 下 : 


(有 ,RU 避 和 = YE 号 ) (12.15) 
现在 可 以 重新 定义 动态 规划 算法 如 下 (参看 习题 12.4): 
人 (Mo) = min 理 [8(Xo:p 人 io)， 太 ) + YE) (12.16) 


Jo) =0 对 所 有 区 
开始 状态 z 是 初始 状态 ， 克 是 策略 的 行动 导致 的 新 状态 ，y 是 折扣 因子 。 
令 三 (站 表示 对 初始 状态 和 = 的 最 优 无 限 范围 的 代价 。 我 们 可 以 把 7 ( 门 看 作 相应 的 
开 阶 段 最 优 代 价 严 (当天 趋 于 无 穷 大 时 的 极限 ; 旧 
六 (= 各 交 人 对 所 有 # (12.17) 
这 个 关系 联系 着 有 限 范 围 和 无 限 范围 之 间 的 拆 扣 问题 。 在 式 (12.16) 中 ， 置 n+1 = 类，Z = 
1， 并 应 用 式 (12.17)， 我 们 得 到 
( 间 二 (PR 和 ) + 77 (和 (12.18) 
为 了 计算 最 优 无 限 范围 代价 九 ( 避 的 值 ， 按 下 硬 两 个 阶段 进行 处 理 ; 
1 计算 代价 g(ip( 六， 太 ) 对 交 的 期 望 值 ， 


五 [&(DA(i 丰 = 疡 pe (站 让 (12.19) 
其 中 N 是 环境 状态 的 数目 ， 疡 是 初始 状态 fo = ; 到 新 状态 所 = = 了 的 转移 概率 。 式 (12.19) 定 


义 的 量 是 在 状态 员 = 守 使 用 策略 "建议 的 行动 引起 的 立即 期 望 代价 。 利 用 e( 让 zi) 表示 这 
个 代价 ， 可 以 写 为 












































ep(D) = 袜 Pig 人 人 站 用 (12.20) 
2. 计算 7 ( 互 ) 对 避 的 期 户 值 。 这 里 注意 ， 如 果 知 道 有 限 状 态 系统 的 每 一 个 状态 嘱 的 
代价 7 ( 蕊 )， 我 们 可 以 根据 加 有 的 Markos 链 的 转移 概率 决定 产 ( 国 ) 的 期望 值 如 下 : 
亚 六 (XD)] = 袜 o () (12.21) 
这 样 ， 将 式 (12.19) 至 (12.21) 代 人 式 (12.16)， 我 们 得 到 期 志 的 结果 


上 人) = min(c 人 (让 (让 ) 7 六 mo ( 门 ) = 12， (12.22) 
式 (12.22) 叫 做 Belhman 最 优 性 方程 。 它 不 应 该 被 看 作 竺 法 。 相反 ， 它 表示 六 个 方程 组 ， 每 
个 方程 对 应 一 个 状态 。 这 个 方程 组 的 解 定 义 环境 六 个 状态 的 最 优 cost-te -go 函数 。 
有 两 种 计算 最 优 策略 基本 方法 。 它们 称 为 策略 选 代 和 值 选 代 。 这 两 种 方法 分 别 在 12.4 
节 和 12.5 节 讨论 。 
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12.4 策略 迭代 

我 们 开始 措 述 策略 选 代 算 汰 ， 首 先 介绍 Walkins( 1989 ) 提 出 的 Q - 网 子 的 概念 。 考 骨 一 
个 现 有 的 策略 上 ， 它 的 所 有 状态 的 rsriur- 各 函数 产 ( 门 为 已 知 。 对 每 一 个 状态 iiE 叶 和 行 
动 aE 区 ,，Q- 因子 定义 为 立即 代价 加 上 遵循 策略 * 的 所 有 后 继 状 态 的 折扣 代价 之 和 ， 表 
泵 为 








人 0 47 习 m(oO7O (12.23) 


其 中 行动 e=&(D。 注 意 由 -因子 @(ia) 比 cost 全 mo 晒 数 天 (站 包含 的 信息 更 多 。 例 如 ， 

行动 可 以 只 依靠 Q - 因子 来 排序 ， 而 依 舍 rost-to-go 图 数 排序 时 还 需 状态 转移 概 这 和 代价 的 知 

识 。 
通过 设想 由 初始 状态 1，2，…， 交 和 所 有 记 外 了 

状态 -行动 对 (i，e) 组 成 其 状态 的 新 系统 ， 如 | 

图 12-2 所 描绘 ， 我 们 可 以 深 人 了 解 中- 因子 的 

傅 义 : 有 两 种 可 能 发 生 的 不 同 概率 ; 











，。 系统 在 状态 (ie) ， 在 这 种 状况 下 ， 不 
采取 行动 。 以 概率 py( e) 自动 转变 为 状 一 
态 户 同时 招致 代价 EC 7)e 图 12-2 两 个 可 能 的 转移 ， 从 状态 (ia) 到 
，。 系统 在 状态 丰 ， 在 这 种 状况 下 ， 采 取 行动 状态 / 的 转移 为 概率 性 的 ， 但 从 状态 ;到 居 
ak 由, 后 。 下 一 个 确定 性 状态 是 (ie)。 态 (io) 的 转移 为 确定 性 的 


我 们 说 策略 z 对 costrto-gp 函数 产 ( 间 是 贪心 的 ， 如 果 对 所 有 的 状态 ，#( 间 是 满足 下 列 条 
件 的 行动 : 
PR) = Ce) 对 所 有 (12.24) 
对 式 (12.24) 的 下 列 丙 点 观察 得 注意 : 
，。 可 能 有 多 于 一 个 行动 最 小 化 某 一 状态 的 Q - 因子 集合 ， 在 这 种 情况 下 ， 对 于 有 关 的 
cost-to-g 丽 数 吕 以 有 多 于 一 个 的 贪心 策略 。 
*， 不 同 的 custio-go 函数 可 能 有 一 个 相同 的 贪心 策略 。 
另外 ， 下 面 的 事实 对 所 有 动态 规划 方法 都 是 基本 的 ; 
Oo GD) = 0 09) (12.25) 
这 里 上 呈 " 是 最 优 策略 ， 三 是 相应 的 最 优 costrtio-go 缘 数 。 
我 们 处 理 Q - 因子 和 贪心 策略 的 概念 ， 可 以 描述 策略 选 代 (poliey iteration) 算法。 特别 


地 ， 算 法 交替 在 下 面 两 个 步 又 中 运行 ( Bertsekas,1995b)， Costtoga 
1 苇 略 求 值 步 对 ， 在 这 个 步 又 里 ， 对 所 有 状态 和 行 | 和 放 下 六 
动 求 当前 策略 的 wostto-go 函数 值 和 相应 的 Q - 因子 的 值 。 
2. 策略 改进 步 球 ,更 新 当前 策略 使 其 成 为 第 一 步 计 
算出 的 costio go 冰 数 的 信心 策 略 。 本 卫 信 人 全 


这 两 个 步 又 抑 图 12-3。 具 体 地 ， 我 们 从 某 一 初始 策略 
只 开始 ， 然 后 产生 -一 系列 新 策略 由 ， 必 ，…。 设 当前 策略 图 12-3 第 略 先 代 算法 框图 
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为 上 u， 我 们 执行 策略 求 值 步 枝 时 ， 计 算 cosrte-m 两 数 天 人) ， 作 为 下 列 线性 方 称 给 的 解 ( 参 
看 式 (12.22)) : 
CD cea) 4yDmOD)D 2 (02.26) 


其 中 后 (0D)， 岂 02，…， 瑟 CN) 是 本 知 数 ， 使 用 这 些 结果 ， 我 们 对 状态 - 行动 对 (5，e) 
计算 Q - 因子 (参看 式 (12.23)) 














Qia) = elia) 4 eaE2 2 (2.27) 
接着 ， 通 过 计算 如 下 定义 的 新 策略 xs, 来 完成 策略 改进 : 
Past() = arg 中 让 On(iya) = 1,2， RN (12.28) 
利用 策略 &。, 代 桩 司 ， 重 复 刚才 描述 的 两 个 步 琶 直到 有 
人 对 所 有 # 
此 时 终止 算法 于 策略 上 m。 由 于 加 … 到 . 略 (参看 习题 2.5) ， 可 以 说 经 过 有 限 次 迭代 后 策略 迭 


代 算 法 会 结束 ， 因 为 固有 的 Martkov 决策 过 程 仅 有 有 限 数 日 的 状态 。 表 12-1 概括 基于 式 
(12.267》 和 (12.28) 的 策略 迭 代 算 法 。 


表 12-1 策略 选 代 算 法 小 结 











1. 从 任意 的 初始 策略 re 开始 。 
2. 对 所 有 的 状态 i 噬 和 行动 eE 蝇 ;， 计 算 jn ( 门 和 Oow (on=0，1，2，…… 
3. 对 每 一 个 状态 fr， 计 算 
Roset(i = 3 Oo (ia) 
4. 重复 第 2，3 目 ， 直 到 is, 与 ze 励 莽 出 ， 导 时 的 wn 就 是 所 求 的 策略 。 





12.5 值 迭 代 


在 策略 选 代 算法 中 ， 算 法 每 次 进 代 过 程 必须 重新 计算 整个 cost-to-go 函数 ， 这 样 代价 是 
很 高 的 。 即 使 新 策略 和 旧 策 略 的 cost-to-go 冰 数 很 相似 ， 很 遗憾 这 个 计算 也 没有 显著 的 改进 。 
然而 ， 有 另外 一 种 用 于 寻找 最 优 策略 的 方法 能 够 在 计算 costto-go 嚼 数 时 避免 烦 开 的 重复 计 
算 。 这 个 以 逐次 有 逼 近 为 基础 的 苦 代 方法 就 是 值 欠 代 算法 。 

值 迁 代 (value ieration) 算 法 涉及 对 一 序 询 有 限 范 围 问题 中 的 每 一 个 求解 Bellman 最 优 竹 
方程 (12.22)。 当 算法 的 选 代 数 上 月 趋 于 无 穷 时 ， 在 极限 处 有 限 范围 问题 的 cost-io-go 函数 对 
所 有 的 状态 一 致 收敛 于 相应 的 无 限 范围 问题 的 costto-go 画 数 ( Ross, 1983; Bersekas， 
199sb ) 。 

令 ( 昌 表示 在 值 选 代 算法 中 迭代 时 对 状态 ;的 cost-to-go 丽 数 。 算 法 从 任意 的 猜测 
机 (六 开 始 ,= 1，2，…， 闪 。 矶 ( 妆 的 惟 - -约束 是 它 应 该 有 界 ;， 对 于 有 限 范 围 问 题 ， 这 是 
自动 成 立 的 。 如 果 最 优 costto-go 函数 矿 《 切 的 某 一 估计 可 用 ,那么 它 应 该 被 用 作 初 始 值 
机 (站 。 一 旦 选择 了 Jo(i7， 就 可 以 计算 cost-to-go 函数 序列 羡 ( 让 ， 凡 (，…， 使 用 值 选 代 
算法 
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Ji = 吕 {etcosy 马 ptoOxO)， 2 (12.29) 


对 于 状态 工 应 用 式 (12.29) 撒 述 的 cosLio-go 击 数 的 更 新 ， 这 称 为 工 的 代价 的 支持 (backing up of 
is eosD)。 这 个 支持 是 Bellman 最 优 性 方程 (12.22) 的 直接 实现 。 注 意 对 状态 了 = 1，2，…， 
AN， 式 (12.29) 中 coserto-go 函数 的 值 在 算法 的 竺 一 次 迷人 代 叶 同时 更 新 。 这 个 实现 方法 表示 值 
交代 算法 传统 的 同步 形式 5。 这 样 ， 从 任意 的 初始 值 所 (CD) ， 帮 (2)，…，J(N) 开 始 ， 当 碗 
人 氏 数 日 上 趋 近 无 穷 时 ， 式 (12.29) 描 述 的 算法 将 收 剑 于 相应 的 最 优 值 六 (0 ， 产 (2)，…， 
用 (N)(CRoss,1983; Bextsekas,1995b ) 。 

与 策略 迁 代 算法 不 同 的 是 ， 在 值 选 代 算 法 中 不 足 直接 计算 最 优 策 略 ， 而 是 首先 用 式 
(12.29) 计 算 最 优 值 六 (1)， 太 (2)，…， 太 (AN)， 然 后 斐 得 关于 该 最 优 集 合 的 贪心 策略 作 
为 最 优 策 略 。 就 是 说 ， 

站 = arg min Qiea)， 1 = 12 人 (412.30) 


近 








这 里 0，a)=cli， +7 归 mr(o 太 (7)， 1，2，…，W (12.31) 
表 12-2 给 出 甘于 式 (12.29) 至 (12. 31) 的 值 迁 代 算法 的 小 结 ， 其 中 包括 式 (12.29) 的 停止 
准则 。 
表 12-2 和 值 帮 代 算法 小 结 


1. 从 状态 ;= 1，2，…， 六 的 任意 初始 值 mof 间 开始 。 
2. 对 m=0，1，2，…， 计 算 





eE 哆 ， 


= fo ooxO)， 上 ， 
重复 这 种 操作 吉 到 
1 一 册 ( 人 人 1<e 对 每 一 个 状态 
这 里 的 = 是 指定 的 容许 大 数 - 假定 足够 小 ， 使 几 { 间 充分 接近 最 优 cos-trgp 本 数 思 (i)。 央 此 我 们 可 以 置 
了 人 = 六 (对 所 有 状态 
3. 计算 QR -因子 
和 
@(iba) actibal+yypfa) 六 (让 对 a 扣 中, 且 i = 112 
扣 


由 此 ， 确 定 贪心 沉 略 作为 了”〈 的 最 优 策略 : 
站 = ago 0 (ie) 





例 12.,1 了 驿 车 问题 为 了 说 明 Q - 因子 在 动态 规划 中 的 作用 ， 我 们 考虑 驿 车 (stagecoach 
pmoblem) 问 题 。 在 19 世纪 中 上 时 密 苏 里 的 一 个 幸运 追求 者 决定 去 西部 如 入 在 加 里 福 尼 业 的 淘金 
潮 (Hiller and Liebemman,1995 )。 行 程 需要 乘 芋 车 穿 过 不 安全 的 乡村 ， 沿 途 会 有 强盗 攻击 的 危 
险 。 行 程 的 起 始点 (密苏里 州 ) 和 终点 (加 里 福 尼 亚 州 ) 是 固定 的 。 但 是 有 很 多 可 以 选择 的 路 
径 ， 有 可 能 经 过 其 他 8 个 州 ， 如 图 12-4 所 示 。 在 图 中 ， 我 们 有 以 下 规定 : 

， 一 共 10 个 州 ， 每 个 州 用 一 个 字母 表示 。 

” 行进 的 方向 是 从 左 到 右 。 

。 从 开始 的 州 4( 密 苏 里 州 ) 到 终点 的 州 几 加 里 福 尼 亚 州 ) 有 4 个 阶段 。 

，* 幸运 追求 者 从 一 个 州 到 下 一 个 州 行动 是 向 上 (Up) 、 向 下 (Down) 或 直接 向 前 (Staight)。 
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。 从 4 到 j -共有 18 条 可 能 路 径 。 
12-4 还 包括 对 每 一 条 路 径 的 人 身 保 险 策略 的 代价 ， 选 择 每 一 条 路 线 是 基于 对 该 路 线 
的 安全 代价 的 仔细 评 佑 。 问 题 是 从 4 到 J 找到 一 条 人 身 保 险 最 便宜 的 路 线 。 




















图 12-4 驿 车 问题 的 流 册 图 
为 了 找到 最 优 路线 ， 我 们 从 终点 /开始 向 后 推演 ,考虑 -系列 有 限 范围 问题 。 这 符合 























12.3 节 的 Bellman 最 优 性 原则 。 
计算 终点 前 的 最 后 一 阶段 的 Q - 因子 ， 从 图 12- Sa 可 以 得 出 终点 Q - 值 如 下 : 
人 @( 末 ,down) = 3 
QCnap) = 4 
这 些 数 值 从 图 12-5a 可 以 分 别 得 出 。 
然后 向 后 再 移动 一 阶段 ， 使 用 图 12- Sa 得 出 的 Q- 值 ,计算 下 面 的 Q- 值 ， 














@( 开 ,straight) = 1+3=4 
Q@(E.dowm) = 4+4=8 
QFP.ap) = 6+3=9 
QOCF:down) = 3+4=7 了 
QCC:up) = 3+3=6 
QICC,staight) = 3+4=7 


由 于 需要 找到 最 小 保险 策略 的 路 径 ，Q - 值 表 上 明 只 有 下 ~ 吾 ，P-~ 上 和 6 已 路 径 应 保 
留 ， 而 其 他 路 径 应 删除 ， 如 图 12-Sb。 
再 向 后 移动 一 阶段 ， 对 状态 日 ，C， 也 重 复 这 种 Q - 因子 计算 ， 保 留 那 些 有 最 低 安全 评 
65| 价 的 路 径 ， 就 得 琳 图 12~Sc。 
最 后 ， 向 后 移动 到 第 一 阶段 ， 重 复 上 面 的 计算 ， 就 得 到 图 12-5d。 从 图 中 我 们 看 到 共有 
3 条 最 优 路 径 如 下 : 















































4 一 Cr 民 > 末 了 

4-D-> 忆 -> 百 > 了 了 

4-rD 一 严 > 六 > 了 
它们 产生 的 总 体 代 价 都 是 11。 
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图 12-5 计算 琶 车 问题 Q- 因子 涉及 的 步骤 


12,6 神经 动态 规划 


动态 规划 的 主要 目标 是 寻找 一 种 最 优 策略 ， 即 学 习 系统 对 境 每 个 可 能 状态 应 该 采取 行 
动 的 最 优选 择 。 在 这 种 环境 中 ， 当 考虑 利用 策略 选 代 或 值 迁 代 算 法 求解 一 个 动态 规划 问题 
时 ， 必 须 记 住 两 个 实际 问题 ， 

，。 缴 数 灾 。 对 现实 世界 的 许多 困难 问题 ， 可 能 的 状态 和 人 允许 的 行动 数目 如 此 之 大 ， 以 
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致 动态 规划 所 需 计 算 量 是 不 堪 亿 受 的 。 对 于 涉及 总 共 站 个 可 能 状态 和 对 每 个 状态 有 
则 个 多 许 行动 的 动态 规划 问题 ， 例 如 ， 一 个 稳定 策略 的 值 迁 代 算 法 的 每 步 选 代 需 要 
时 呆 次 。 当 站 很 大 时 ， 这 常常 使 得 苑 使 是 完 成 算法 的 一 次 迁 代 也 不 可 能 。 例 如 ， 
十 五 子 民 (backgammon) 有 107 个 状态 ， 这 意味 着 算法 的 一 次 欠 代 利用 1000 MIbs 处 理 
器 也 需 1000 年 (Barto,et 吕 , 1995)。 

不 完全 信息 。 策 略 选 代 或 值 迁 代 算 法 要 求 有 Markov 雇 策 过 程 的 疝 有 先 验 知 识 。 即 为 
了 最 优 策略 的 订 算 可 行 ， 我 们 需要 知道 状态 转移 概率 ms 和 观察 代价 g(i,a, 门 。 遗憾 
的 是 ， 这 些 先 验 知 识 并 非 总 是 可 得 的 。 

出 于 这 两 个 内 难 中 的 任何 一 个 或 企 部， 我 们 常常 放弃 最 优 策略 而 使 用 次 优 策略 - 

这 里 我 们 感 兴趣 的 是 在 次 优 过 程 中 为 授 近 最 优 cos-io-so 函数 三 ( 门 ，iE8% 这 个 目的 而 
涉 必 神经 网 络 的 使 用 或 (和 ) 模 执 。 特 别 地 .对 一 特定 状态 ， 矿 ( 门 册 它 的 合适 通 近 Ji,w) 
所 代 蔡 ， 其 中 ww 是 参数 向 量 ， 函数 jw) 称 为 评分 有 数 (scoring fanetion) 或 近似 cost-to-go 通 
数 ， 函 数 的 值 了 (i w) 称 为 状态 的 分 数 (seores) 或 近似 cosLto-mp 代价 。 因 此 在 济 12-6 中， 
分 数 Ji w) 为 输入 状态 了 时 神经 网 络 的 输出 。 这 里 利用 的 是 所 半 通 用 适 近 ， 正 如 在 前 面 凡 
章 中 所 讨论 的 那 伴 ， 它 是 多 层 感 知 器 和 么 向 芒果 数 网 络 的 加 有 特征 。 

我 们 有 特别 兴趣 的 动态 规划 问题 是 那些 具有 大 量 状态 而 要 求 好 找 有 较 小 维 数 的 参数 向 量 
交 的 评分 函数 j(…w)。 这 种 形式 逼近 称 为 紧凑 表示 ， 仅 需 存 储 参 数 向 量 w 和 评分 函数 
jw) 的 一 般 结构 。 对 所 有 状态 iE 中 只 有 需要 时 才 产 生 分 数 7(i,w)。 对 于 给 定 的 神经 网 
络 结构 (例如 多 层 感知 器 )， 问 题 是 寻找 参数 向 量 w， 使 得 对 所 有 iE&% 分 数 Ji,w) 提 供 最 优 
值 六 (站 的 一 个 满意 的 逼近 。 

由 第 4 章 至 第 7 齐 给 出 的 关于 有 教师 学 习 的 材料 ， 我 们 知道 ， 不 答 一 个 神经 网 络 的 类 型 
如 何 ， 痢 要 求 有 一 个 表示 该 任务 的 祭 定 数据 集 。 但 是 ， 在 动态 规划 门 题 的 背 蝶 下 ， 没 有 这 样 
的 训练 数据 ( 即 输入 - 输出 检 本 1( 7 (六 上 可 用 来 训练 图 12-6 中 的 神经 刚 络 ， 使 得 在 某 种 
统计 意义 下 优化 它 的 设计 。 这 样 忧 一 的 可 能 性 是 利用 Monte Canlo 模拟 ， 这 里 利用 一 个 符 代 慌 
型 蔡 代 基本 Markov 决策 过 程 的 实际 系统 。 这 样 导 致 一 种 新 的 离线 动态 规划 运行 方式 ， 它 有 
如 下 浇 在 的 好 处 (Berlsekas and Tsitsiklis, 1996 ) : 

1, 利用 模拟 近似 地 求 最 优 cost-to-gp 陋 
数 的 值 是 区 别 昼 经 动态 规划 方法 和 传统 动 状态 
态 规划 逼近 方法 的 关键 思想。 1 

2. 模拟 允许 利用 神经 动态 规划 方法 设 
计 没有 明显 模型 可 用 的 系统 。 对 于 这 种 系 
统 ， 传 统 的 动态 规划 技术 是 不 可 能 用 的 ， 
因为 提供 状态 转移 概 兴 的 估计 如 果 不 是 不 
可 能 都 也 是 很 烦琐 的 。 

3. 通过 模拟 ， 可 以 隐 式 地 价 认 系 统 中 最 重要 或 有 代表 性 的 状态 ， 即 那些 在 模拟 中 被 经 
常 访问 到 的 状态 。 结 果 ， 由 神经 网 络 发 现 的 评分 函数 可 以 对 这 些 特殊 状态 的 最 优 cost-to-go 
明 数 提供 一 个 好 的 逼近 。 对 一 个 困难 的 动态 规划 问题 最 终结 果 可 能 是 一 个 好 的 次 优 策略 。 

但 是 ， 重 要 的 尽 要 认识 到 -- 旦 引 和 人 逼近 ， 就 不 能 期 望 评分 函数 7.,w) 收 敏 到 最 优 的 
costrte-g 函数 六 ( )。 原 央 很 简单 ， 广 (…) 可 能 不 在 选 定 的 神经 网 络 结构 所 能 精确 表达 的 函 









































图 12-56 逼近 最 优 costrtogo 珊 数 广 的 神经 网 络 
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数 集 内 

在 下 面 两 节 里 我 们 讨论 两 个 costrto-go 晒 数 送 近 的 动态 规划 逼近 过 程 。 人 在 12.7 节 措 述 的 
第 一 个 过 程 处 理 逼 近 策 略 选 代 ， 这 申 假 设 系统 其 有 可 用 的 Markov 异型 。 在 12,8 节 描 述 的 第 
一 过 程 处 理 一 个 称 为 @- 学 习 的 过 程 ， 它 仅 作 一 些 弱 的 假设 。 


12.7 逼近 策略 选 代 


假 没 我 们 有 一 动态 规划 问题 ， 它 的 本 能 状态 数 卢 和 人 允许 的 行动 数 日 非常 大 ， 使 得 利用 传 
统 处 理 方法 是 不 现实 的 。 假如 我 们 有 该 系统 的 异型 ， 即 转移 概率 py (ae) 和 观察 代价 
SCie 门 都 芷 已 知 的 : 为 了 处 理 这 种 情况 ,我 们 基于 下 面 所 述 的 Monte Carlo 借 拟 和 最 小 二 
乘法 提出 使 用 策略 迭 代 的 近似 (Berisekas and Tsitsiklis,1996 ) 。 

图 12-7 给 出 舟 近 策略 选 代 算法 的 简化 框图 、 它 相似 于 图 12-3 所 示 的 传统 策略 选 代 算 法 
低 网 ， 介 有 一 个 重要 的 区 别 : 在 图 12-3 中 的 策略 求 信步 又 由 它 的 一 个 逼近 所 和 蔡 代 。 因 此 各 
近 策 略 迁 代 算法 交替 进行 如 下 的 逼近 策略 求 值 步 又 和 策略 改进 步骤， 

1. 台 近 策略 求 值 步 又。 给 定 当前 策略 kw， 对 所 有  。 通 近 
状态 宇 的 实际 osrter- 妈 朱 数 产 (让 计 算 它 的 有 逼近 ， 即 所 般 辐 更 新 
cost-to-go 函数 名 (iw)。 向 量 是 完成 逼近 的 神经 网 
络 参 数 。 

2. 策略 改进 步骤。 利用 逼近 cost-togo 函数 产 ( 让 ， 

w)} 产 生 改 进 的 策略 ka。 对 所 有 “， 新 策略 设计 对 庆 (i， 逼近 策 赂 求 值 
w) 是 贪心 的 。 台 的 神经 网 络 “| 策略 上 

由 于 逼近 策略 选 代 算 法 产生 满意 解 ， 内 此 仔细 挑 
选 策略 初始 化 算法 非常 重 此 。 这 可 利用 主 发 式 思 想 完 
成 。 或 者 我 们 可 以 从 某 个 权 值 问 量 w 开始 ， 用 它 导 出 
一 个 贪心 策略 ， 接 着 利用 该 策略 为 初始 策略 。 

假设 除 知 道 转移 概率 种 观察 代价 之 外 ， 我 们 有 如 下 几 项 ; 

”一 个 稳定 的 策略 上 作为 初始 策略 。 

* 一 个 状态 集 % 代表 运 行 环境 

。 对 于 每 个 iE 员 ，cost-to-go 函数 产 (站 的 于 ( 门 个 样本 集 ; 一 个 这 样 的 样本 记 为 天 (ii 

不)， 其 中 下 =1、2，…， 玉 (站 。 

令 六 ( 六 ) 记 costrio-go 函数 产 (让 的 逼近 表示 。 逼 近 由 神经 阿 络 完成 (例如 用 反 向 传播 

算法 训练 的 多 层 感知 器 )。 神经 网 络 的 参数 向 量 亚 利 用 最 小 一 有 乘 法 决定 ， 即 最 小 化 代价 函数 


思 (Ww) = 忆 芝 ce， mi 一 (12.32) 


在 确定 最 优 权 值 向 量 从 而 有 逼近 cost-io-go 男 数 六 (i,w) 之 后 ,我 们 肯 利 用 下 列 公 式 确定 
逼近 Q- 因子 (参看 式 (12.20) 和 式 (12.23) ) : 

Qia mw) = 冯 局 (oba 站 + 让) (12.33) 
其 中 四 (a) 为 在 行动 (已 知 ) 下 从 状态 i 到 状态 / 的 转移 概率 ，&g(i,a，, 门 是 观察 代价 (也 为 已 
知 )， 而 Y 是 规定 的 折扣 央 千 。 根 据 下 列 公 式 ， 通 过 使 用 这 些 台 近 Q - 因子 确定 一 种 改进 策 












































图 12-7 通 近 策略 选 代 簿 法 的 简化 框图 
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了 略 以 完成 适 代 (参看 (11,26)): 





ARC = arg min Q@tiayw) (12.34) 
重要 的 是 注意 ， 式 (12.33) 和 (12.34) 仅 被 模拟 行动 状态 
器 用 于 在 由 模拟 实 陈 访 河 的 状态 而 不 是 在 所 站 六。 福 扫 欠 











有 状态 产生 行动 。 正 因为 如 此 ， 这 珊 个 公式 
没有 受到 维 数 火 的 影 呈 。 












































图 12-8 给 出 -个 逼近 策略 迭代 算法 的 更 行动 产生 吉 
加 详细 的 征 图 ， 这 个 棋 图 由 四 个 丈 连 的 模块 。 。 话 。 | | 于 
组 成 ( Bertsekas and Tsitsiklis,1996): 人 Caseee | ww 
1 模拟 器 ， 它 利用 给 定 的 对 状态 转移 要 通 近 占 *” 上 ”| 最小 二 冬 求 名 人 
举 和 观察 到 的 一 步 代价 构建 环境 的 一 个 蔡 代 
模型 。 模 拟 器 产生 两 类 东 此 :，(a) 模 拟 环境 的 网 12-8 通 近 策略 选 代 算法 详细 说 计 


行动 进行 响应 的 状态 ，(P) 对 给 定 策略 的 cosL-to-go 因数 抽样 。 

2. 行动 发 生 器 ， 它 根据 (12,34) 式 产 牛 一 个 改进 策略 ( 即 一 系列 行动 )。 

3.costrio-go 通 近 器 ， 它 对 状态 让 和 参数 向 量 四 产生 在 式 (12.33) 和 式 (12.34) 中 使 用 的 台 
近 eastio-go 本 数 产 (e,w)， 

4. 最 小 二 蔷 求 解 器 ， 它 利用 由 模拟 器 对 策略 和 状态 提供 的 cost-to-go 国 数 严 ( 站 的 样 
本 ， 计 算 使 式 (12.32) 的 代价 函数 最 小 化 的 参数 向 量 w。 只 有 充分 评估 一 个 策略 和 确定 一 个 
最 优 参数 向 量 w" 之 后 ， 才 能 启动 从 最 小 二 乘 求解 器 到 cost-to-go 逼近 器 的 连接 。 此 时 ， 出 
关 (W") 蔡 代 eoserto- 印 逼近 和 (imw)。 

表 12-3 给 出 逼近 策略 迭代 算法 的 小 结 。 

表 12-3 逼近 策略 迭代 算法 








已 知 参数 转移 概率 ou (和 代价 蝴 数 80r， a 六 
计算 : 

1 该 择 一 个 稳定 策略 | 作为 初始 策略 。 

2. 使 用 由 模拟 器 产生 的 cosriogo 蚂 数 严 (站 的 样本 集 14( 52 Je] ， 殉 定神 经 网 络 用 作 最 小 _ 溺 求解 器 


”= min 电 (w) = min 了 晤 mm 一 
了 :nc 
的 参数 向 其 w, 
3,. 恨 据 第 2 步 决 定 的 参 赦 向 基 w， 对 访问 的 状态 计算 通 近 rost-to- 函数 六 (fw)。 确定 允 近 Q- 因子 : 
Perw) = 习 有 (afgtie 六 + 
四 到 
4. 确定 改进 策略 
= sg Give mW) 
5. 重大 第 2 步 素 第 4 步 
注 : 第 3 纱 有 第 4 步 仪 在 实际 访问 的 状态 而 不 基 所 有 状态 应 放行 坊 。 
很 自然 ， 这 个 算法 的 运行 会 有 误差 ， 这 归 因 于 模拟 器 和 最 小 二 了 乘 求解 器 的 设计 不 可 避免 

地 不 完善 。 对 期 望 的 costrto-g 函数 进行 最 小 二 乘 有 逼近 的 神经 网 络 可 能 缺乏 适当 的 计算 能 力 ， 
而 成 为 第 一 个 误差 源 。 神 经 网 络 通 近 器 的 最 优化 和 由 此 而 来 的 参数 向 量 w 的 调整 是 基于 
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模拟 器 提供 的 期 刻 反 应 ， 因 此 成 为 第 一 个 误差 源 。 假设 所 有 的 策略 求 值 和 策略 改进 中 分 曾 在 【2] 
< 和 -- 定 的 误差 容许 限度 内 完成 的 ， 在 Bertsekas and Tsitsikiis(1996) 中 证 明和 逼近 策 赂 选 代 算 

法 所 产生 的 策略 和 最 优 策略 的 性 能 之 问 差 异 的 因子 随 e 和 降低 府 趋 于 零 。 换 名 话说， 通 近 

策略 算法 具有 最 小 性 能 (差异 ) 的 可 靠 保证 。 根 据 Bertsekas and Tsilsiklis( 1996)， 通 近 策 略 迁 代 
算法 初始 阶段 能 够 取得 迅速 吊 且 十 分 单调 的 进展 ， 但 在 极 腿 情况 下 - :个 随机 性 的 持续 的 策略 
振荡 可 能 发 生 。 这 种 振荡 行为 出 现在 道 近 costrto-go 函数 ) 到 达 最 优 值 广 的 区 域 O((3+ 
23e)7(1 - y 六 ) 内 之 后 ， 其 中 y 为 折扣 参数 ， 对 所 有 通 近 策略 选 代 的 变 体 ， 它 们 都 明显 地 有 
导致 振 功 行 为 的 恨 本 结构 。 


12.8 Q- 学 习 


图 12- 1 中 增强 式 学 习 系 统 的 行为 目标 ， 征 在 试验 各 种 可 能 的 行动 序列 和 观察 引起 的 代 
价 以 及 发 生 的 状态 转移 之 后 ， 如 何 寻找 最 优 ( 即 最 小 化 代价 ) 策 略 。 在 这 种 背景 下 我 们 可 能 提 
出 下 刻 问 题 ; 是 否 存 在 仅 通过 基于 形式 为 

《的 (12.35) 

的 样本 获得 的 经 验 学 习 最 优 策 略 的 在 线程 序 ?” 上 式 中 ，” 表示 离散 时 间 ， 每 个 样本 y% 组 成 -- 
个 四 元 组 ， 描 述 为 在 状态 了 上 的 -一 个 试验 行动 ， 以 代价 训 = &( 到 ,au 注 ) 导 致 对 疡 = 忆 ， 
的 状态 转移 。 对 于 这 个 基本 问题 的 网 答 是 断然 地 肯定 ， 它 是 由 Watkina(1989) 发 现 的 一 种 称 
为 @- 学 习 “ 的 随机 方法 。Q - 学 习 是 一 种 增 量 式 的 动态 规划 过 程 ， 用 -: 步 一 步 的 方式 决定 
最 优 策略 。 它 非常 适合 于 求解 没有 明显 的 转移 概率 知识 的 Matkov 决策 问题 。 但 是 成 功 应 用 
入- 学习 的 关键 在 于 假设 环境 状态 是 完全 可 观察 的 ， 这 就 意味 着 环境 是 完全 可 观察 的 Markov 
链 。 

回忆 12.4 节 中 状态 -行动 对 (1，a ) 的 Q- 因子 Q(i，a) 抽 式 (12.23) 定 义 ， 而 Bellman 
最 优 竹 方程 由 式 (12.22) 定 义 。 联 合 这 两 个 方程 并 且 利用 (12.20) 给 出 的 立即 期 望 代价 efi， 
a) 的 定义 ， 我 们 得 到 


Qi,a) = 马 wtotet + (7 对 所 有 (ia) 《〈12,36) 
这 可 看 作 Belman 最 优 性 方程 的 两 步 形式 。 式 (12， 36) 的 线性 方程 组 的 解 对 所 状态 一 行动 对 
(ia) 惟 一 地 定义 最 优 Q- 因 子 @" (ba)。 四 
我 们 可 以 利用 基于 Q - 因子 构造 的 值 送 代 算 法 求解 这 个 线性 方程 组 。 因 此 ， 对 于 算法 的 [Gasj 
一 步 选 代 我 们 有 。 
Ofise) = 归 GEgCia + 7 Q@0 0) 对 所 有 (ia) 
这 个 迁 代 的 小 步 长 的 形式 可 描述 为 
Qtial)=(1-mTDOa) 4 六 m(atetia + Y mi QO7D)) 对 所 有 (ia) 
〔12.37) 





























其 中 了 为 很 小 的 学 习 率 参数 ， 位 于 区 间 0<3<1 内 。 
从 它 的 形式 上 看 ， 由 (12 .37) 措 述 的 值 迁 代 算法 的 一 次 选 代 要 求 转 移 概率 的 知识 。 我 们 
可 以 构造 (12.37) 的 随机 方式 从 而 消除 对 这 一 先 验 知识 的 需求 。 特 别 ， 在 (12.37) 的 一 次 迁 代 
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中 对 所 有 可 能 状态 炒 平 均 被 单个 翌 本 所 替代 ， 因 而 导出 下 列 对 Q- 因子 的 更 新 公 碟 : 
OP = -ha)Ca)+mtiallegie) try 对) = (pas) 
《12.38) 
其 中 7D=2 OU，D) 《12.39) 
且 7 为 后 继 状态 ，m (ia) 为 在 在 时 间 步 时 状态 -行动 对 (a) 的 学 习 率 参数。 更 新 
公式 (12.38) 应 用 于 当前 状态 - 行动 对 ft 避 , as)， 根 据 式 (12.35) 此 时 /= 疡 。 对 允许 的 其 余 状 
态 - 行 动 对 ，Q - 央 子 优 保 持 不 变 ， 表 示 为 





Oo) = @Cia) 对 所 有 (ia) 天 (二 mu) (12.40) 
式 (13.38) 至 式 (12.40) 组 成 @- 学 习 算 法 的 一 次 选 代 。 
收敛 定理 
假设 学 习 素 参数 卫 (iva) 满 足 条 件 
六 ro) - = 丰 立 冰 (a) < om 对 所 有 (ia) (12.41) 


当 远 代步 数 于 趋 于 无 穷 大 对， 银 定 所 有 的 固态 行动 对 被 无 限 地 经 常 访问 ， 那 么 ， 对 所 有 
状态 行动 对 (iva) 由 站 -学习 算法 产生 的 Q@- 因子 序列 10.(i,a) 以 概率 ] 收 公 子 最 优 值 
Qia)。 

一 个 保证 算法 收敛 的 时 变 学 习 率 参数 的 样本 为 





na 
了 (12.42) 











路 和 有 为 正 数 。 

总 而 言 之 ，Q -学习 算 法 是 值 选 代 策 略 的 随机 通 近 形式 ， 在 算法 的 每 一 步 选 代 中 它 支持 
单个 状态 -行动 对 的 Q&- 因子 ， 即 观察 到 的 当前 状态 和 实际 执行 的 行动 。 最 重要 的 是 ， 无 需 
形成 固有 的 Markov 决策 过 程 的 明显 模型 ， 算 法 的 极限 收 伍 到 最 优 Q - 值 。 一 旦 最 优 Q - 值 可 
用 ， 利 用 式 (12,30) 以 相当 少 的 计算 便 可 决定 一 个 最 优 策略 。 

Q -学 习 到 最 优 策略 的 收敛 假设 使 用 Q - 因子 @.(i,e) 的 查 表 法 表示 。 这 种 表示 方法 简 
单 旦 计算 效率 高 。 但 是 当 由 状态 - 行动 对 组 成 输入 空间 很 大 或 者 输入 变量 是 连续 的 ， 使 用 查 
表 法 需要 大 景 内 存 ， 因 而 开销 特别 大 。 在 这 种 情况 下 ， 我 们 可 以 利用 神经 网 络 进行 函数 通 
近 。 
逼近 Q -学习 

式 (12.38) 和 式 (12.39) 定 义 当 前 状态 - 行动 对 的 Q - 因子 更 新 公式 。 这 一 对 公式 可 以 更 
写成 等 价 赔 式 

OCR 信人 an) 
二 站 (Go) [Eee 六 ) + 了 人 50) ~ Q(5ao)] 

将 式 (12.43) 右 边 方 括 对 内 的 表达 式 当 作 更 新 当前 Q- 因子 @,( ,es) 的 误差 信 怠 ， 我 们 可 以 
在 时 间 步 二 时 确定 目标 (期 望 )Q - 因子 为 : 
































(12.437) 
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人 (天 ) 二 了 本 刘 人 人 0) (12. 生 ) 


中 六 = 2 为 后 继 状态 。 式 (12.44) 表 明 在 决定 日 标 Q - 因子 时 后 继 状 态 六 发 控 关 键 作用 。 
利用 这 个 日 标 Q- 央 子 的 定义 ， 我 们 可 以 重新 构造 Q - 学 习 算法 的 公式 为 














Oilie) = Opba)+AQia) (12.45) 
共 中 当前 Q - 因 闻 的 增 量 改变 定义 为 
， TO Ci) -Qie)) 对 (ia) = (an) 
AC.(ia) = | 0 否则 (12.46) 


由 定义 ， 当 前 状态 六 的 “最 优 " 行 动 o。 足 在 时 间 步 = 时 对 该 状态 具有 最 小 Q - 因子 的 行 
动 。 因 此 ， 在 状态 处 给 定 所 有 允许 的 行动 wE 噶 , 的 Q- 因 子 0.(5,a)， 式 (12.44) 中 使 
用 的 最 优 行动 e, 由 下 式 给 出 ; 到 

















@ = min @(Pa) 
2 Ce a. 
ex 二 神经 网 络 |2tef 王 ea 四 
(12.47) ao 一 + 


令 @.65，onyw) 表 示 由 神经 了 误 闪 信号 
网 络 ( 例 如 利用 反 向 传播 算法 训 
练 的 多 层 感知 器 ?计算 的 Q - 因 图 D-9 用 于 道 近 和 目标 @- 因子 @*e (ia,w) 的 神经 网 络 设计 
子 @.(,m) 的 逼近 。 具 有 参数 向 量 w 的 神经 网 络 的 输 人 为 当前 状态 - 行动 对 (Pas)， 产 
生 输 出 @, (5 ,as,w) ， 如 图 12-9 所 示 。 在 算法 的 每 步 迁 代 中 ， 轻 微 地 改变 神经 网 络 的 权 值 
向 量 w 使 得 输出 @. (wm ,as,w) 更 靠近 月 标 值 O%r (am ,an )。 但是， 一 旦 权 值 向 量 w 改变 了 ， 
目标 值 就 问 接受 到 影响 ， 也 就 是 改变 了 值 Q8” (ion,w)。 因 此 不 能 保证 每 次 选 代 都 缩短 这 
两 个 Q- 值 间 的 距离 。 这 也 是 为 什么 逼近 Q - 学 习 算 法 可 能 发 敬 的 原因 。 如 果 算 法 不 发 散 ， 
权 信和 向量 w 提供 在 训练 后 的 神经 网 络 中 存 储 各 近 的 Q - 因子 的 于 段 ， 央 为 神经 网 络 输出 
已 (5 四) 作为 对 输入 (au ) 的 响应 。 

表 12-4 给 出 逼近 Q -学 习 算法 的 小 结 。 

表 12-4 通 近 Q- 学 习 算 法 小 缚 
1. 从 补 冶 权 值 向 基 wo 开始 ， 香 到 Q- 因子 DUu.ao,w); 权 值 向 慑 w 借助 所 用 的 神经 网 络 完成 肖 近 ， 


2 对 造 代 m = 1，2，…， 做 王 面 几 步 ; 
《as) 对 于 神经 网 络 设 定 的 w， 确 定 最 优 行动 
























































er = RE na) 


《b) 确 定 目标 虽 - 因子 
Seoyw) = (和 an 总 ) + 了 min 信人 六 
[二 
《e) 更 新 Q- 因子 
CeyassW]) = 0 ev) + ARsanm 
其 中 
， CS -On 
有 Oo(i anvW) = 长 其 他 
(相应 用 ( es ) 作 为 神经 网 络 的 输入 ， 产 生 答 出 0 (5 .mm 四) 作为 日 标 @- 内 子 gwm( num 的 吝 近 。 轻 微 地 
改变 权 值 向 量 使 得 @(n ,cs,w) 更 寄 近 目标 值 Cg Ci assw) 
【e) 回 到 步骤 (a)， 重 复 计 算 。 








[四 





谎 12 旭 





在 策略 选 代 中 ， 状 态 空间 的 所 有 潜在 重要 的 部 分 都 应 探测 到 。 在 Q - 学 习 中 我 们 有 一 个 








附加 要 求 : 所 有 溢 在 有 用 的 行动 也 都 应 被 调试 。 


特别 ， 对 所 有 公 许 的 状态 - 行动 对 应 该 经 常 





探测 是 够 的 次 数 以 满足 收 魏 定 二 。 对 于 记 为 上 的 贪心 策略 ， 只 有 状态 -行动 对 (xi)) 被 控 





测 。 遗 憾 的 是 并 不 能 保证 测试 所 有 有 用 的 行动 ， 即 使 探测 完 所 有 状 


我 们 需要 的 策略 是 提供 两 个 冲突 日 标 之 间 的 
，” 探测 ， 它 保证 对 所 有 人 允许 的 状态 - 行动 对 


” 利用， 它 遵 循 贪心 策略 以 寻求 最 小 化 cost- 


达到 这 种 折 点 的 一 种 方法 为 遵循 混合 非 稳定 
辅助 Markoer 过 程 和 由 Q - 学 习 确 定 的 稳定 贪 , 
(《Cybenko,1995)。 畏 助 过 程 有 下 列 解 释 ; 可 能 状态 


闻 亦 是 如 此 。 

折 囊 ， 以 此 扩展 Q - 学 习 (Thrn,1992) : 
探测 足够 次 数 以 满足 Q@ -~ 学习 收 伍 定 理 。 
to- 徊 四 数 : 

《mixed nonstationary) 策 略 ， 这 个 策略 在 一 个 
心 策 略 控制 的 原始 Markov 过 程 之 间 转 换 
问 的 转移 概 座 由 原始 控制 过 程 的 转移 概率 





确定 ， 原 始 过 程 具 有 附加 成 分 ， 其 对 应 的 行动 是 一 致 随机 人 性 的 。 混 合 策略 从 辅助 过 程 的 任何 


状态 开始 ， 随 之 选择 行动 ， 然 后 切换 到 原始 控制 
行 。 消 耗 在 辅助 过 程 上 的 操作 时 间 占 有 固定 数目 








有 状态 的 最 长 期 望 时 间 的 隔 倍 。 消 耗 在 原始 控制 过 程 的 时 间 随 每 次 切 
，mu 表示 切换 回 辅助 过 程 的 时 间 ， 羽 和 mk 分 别 











不 从 辅助 过 程 到 原始 控制 过 程 的 切换 时 间 
定义 为 
由 = mb + 了 工大 二 12 


和 


mx 下 + 了， 


构造 辅助 过 程 使 得 当 ko 时， 以 概率 1 访问 所 有 状态 无 穷 次 ， 
因子 。 进 一 步 ， 当 km ， 混 合 策略 在 辅助 过 程 上 所 消耗 的 操作 时 





过 程 ， 以 图 12-10 中 的 方式 向 前 或 向 后 进 
的 工 步 ， 比 如 赔 ， 定 义 为 访问 辅助 过 程 所 
换 逐 步 增加 。 令 冯 表 














， 且 ma = 工 

下 = 1，2， 光 
而 保证 收敛 到 最 优 Q - 
加 渐进 地 为 消耗 在 原始 





控制 过 程 的 操作 时 间 的 一 小 部 分 ， 这 就 意味 着 混合 策略 渐进 收敛 到 一 个 贪心 策略 。 因 此 ， 
如 果 Q - 因子 收敛 到 它们 的 最 优 值 ， 贪 心 策略 确实 必定 是 最 优 的 ， 只 要 策略 变 为 贪心 策略 


时 足够 地 慢 。 
辅助 过 程 








mms=1 


了 一 原始 控制 过 程 
呈 1 了 2 


图 12-10 属于 辅助 过 程 和 原始 控制 过 程 的 时 间 段 


12.9 计算 机 实验 
在 这 个 计算 机 实验 中 重新 讨 





论 在 例 12.1 中 考虑 的 驿 车 问题 。 这 次 我 们 利用 逼近 Q - 学 


习 求解 问题 。 利 用 两 种 方法 实现 算法 : 一 种 方法 使 用 表 来 表示 Q- 值 ， 另 一 种 方法 使 用 神经 


网 络 。 











12-11 给 出 使 用 表 方 法 
吧 ( 所 ,sthaighD) 利 O(7,up)。 在 图 


的 下 列 Q - 央 子 




















12-11 中 虚线 表示 期 望 的 Q - 


的 学 习 历史 : 0(4,up)，@(C,stmaight )， 
值 。 每 次 试验 为 从 状态 ! 到 目 
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标 状态 / 的 完整 路 线 ， 每 次 试验 的 开始 状态 随机 挑选 ， 学 习 率 参 数 加 ( 访 a) 定 义 为 
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图 12-11 利用 查 表 法 求解 又 车 问题 的 学 习 曲 线 

0(4 芭 ) 的 学 习 曲 线 0@(C,amight) 的 学 习 辐 线 

oj @(essmaighb 的 学 习 曲 线 dG( Pap) 的 学 习 曲线 
其 中 wm(i,a) 为 当前 时 刻 n 为 止 所 访问 的 状态 - 行动 对 的 数目 ，a= 1.6， 天 = 600。 总 共 完 成 
1000 次 之 后 ， 找 到 最 优 路 线 为 





4 一 忆 一 下 -了 了 
这 是 一 条 确认 为 最 优 路 线 ， 总 的 代价 为 11。 
图 12- 12 表示 利用 两 个 输入 节点 、10 个 隐藏 单元 和 1 个 输出 神经 元 的 多 层 感 知 器 获得 的 
相应 结果 。 一 个 输入 节点 代表 状态 而 另 一 个 节点 代表 从 一 个 状态 到 下 一 个 所 采取 的 行动 。 多 
层 感 知 器 的 输出 表示 阅 络 计算 出 的 8 - 值 。 阅 络 使 用 标准 的 反 向 传播 算法 。 在 时 刻 n 时 使 
用 的 月 标 8 - 值 利用 (12.44) 计 算 。 学 习 率 参数 设置 为 0.012， 没 有 使 用 动量 。 对 每 个 状态 - 
行动 对 训练 疯 络 10 000 次 。 图 12-12 表示 Q - 值 的 学 习 历 史 : C@K4,up)，Q(C,straight)， 
QCE,strmaight) 和 0(Pup)。 网 络 发 现 的 最 优 路 线 为 

4 一 了 一 一 旦 一 了 
这 仍 是 一 条 被 承认 的 最 优 路 线 ， 总 代价 为 11。 
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5 9) 


图 12-12 利用 神经 网 络 求解 驿 车 问题 的 学 习 曲 线 
ar0(4,op) 的 学 习 曲 线 DO5C,sbaghb 的 学 习 则 线 
号 @C,suaighD 的 学 习 曲 线 由 0C7Pop) 的 学 习 曲 线 
两 种 实现 方法 的 计算 要 求 小 结 如 下 : 
《a) 神 经 网 络 : 
输入 数目 =2 
隆 蕊 神经 元 数 日 = 10 
输出 神经 元 数目 =1 
突 触 权重 和 偏 置 总 数 日 =2x10+10+ JI0x1+1=41 
(b) 查 表 法 : 
状态 数目 = 10 
行动 数目 =2 或 3 
表格 大 小 =21 
在 这 个 实验 中 可 能 的 状态 数目 很 小 ， 导 至 的 结果 是 查 表 法 比 神 网 络 要 求 更 少 的 存储 。 但 





[ea] 








是 在 大 规模 问题 4 





12.10 小 结 和 


状态 数目 非常 大 ， 神 经 网 络 常常 在 存储 要 求 方面 比 查 表 法 获得 优势 。 
讨论 


结合 经 典 的 动态 规划 的 数学 形式 和 神经 网 络 的 学 习 能 力 ， 神 经 动态 规划 为 需要 规划 的 行 
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为 任务 提供 蝇 有 力 的 求解 方法 。 在 增强 式 学习 这 个 现代 方法 中 ， 系 统 学 会 做 两 件 事 : 通过 观 
察 它 自身 的 行为 做 出 好 的 决策 ， 和 通过 增强 机 制 改进 它 的 行动 。 因 有 的 决策 过 程 服从 Markov 
模型 。 

在 本 章 我 们 描述 了 两 种 神经 动态 规划 过 程 : 

1. 盘 近 策略 迁 代 。 策 略 迭 代 在 两 个 基本 步 双 之 间 将 ， 

， 策略 求 值 ， 确 定 当前 策略 的 cost-io-mo 函数 。 

* 策略 改进 ， 对 当前 cost-to-g 晒 数 用 贪心 策略 更 新 当前 策略 。 

在 逼近 策略 迭代 中 ， 结 合 模 拟 和 函数 冰 近 以 评估 策略 。 为 了 模拟 系统 的 Markov 模型 
要 求知 道 状态 转移 怕 率 。 为 了 进行 函数 通 近 ， 我 们 可 以 利用 神经 网 络 ( 例 如 多 层 感 知 器 、 径 
向 基 函数 网 络 或 支持 向 量 机 ， 由 于 它 的 通用 通 近 性 质 ， 这 是 比较 适合 的 。 

2. 带 近 Q -学习 。 在 值 迁 代 中 ， 作 为 策略 选 代 的 蔡 代 物 ， 利 用 收敛 于 最 优 策略 的 逐次 道 
近 过 程 求 解 Markov 决策 问题 。Q - 学 习 是 值 迁 代 的 异步 形式 ， 这 是 为 了 避免 需要 状态 转移 概 
率 的 明显 知识 而 构造 的 。 它 具有 如 下 富有 骸 引力 的 性 质 : 

。 如 果 所 有 的 状态 -行动 对 都 被 无 限 经 常 地 访问 ， 且 学 习 率 参数 满足 由 式 (12.41) 给 定 

的 条 件 ， 那 么 Q- 学习 以 概率 1 收 伍 到 最 优 Q - 因子 。 

”0Q -学习 直 接 更 新 和 最 优 策略 相关 的 Q - 因子 估计 ， 从 而 避免 策略 选 代 中 涉及 的 多 次 

策略 求 值 步 又 。 

在 站 近 Q -学 习 中 ， 利 用 神经 网 络 台 近 Q - 因 了 的 佑 计 是 为 了 在 可 能 的 状态 数 日 很 大 时 
避免 需要 过 量 的 存储 要 求 。 简 言 之 ， 道 近 Q - 学 习 是 在 无 系统 模型 可 用 日 存储 要 求 过 大 的 情 
况 下 用 于 求解 Markov 决策 问题 的 基于 模拟 的 算法 。 当 然 ， 它 甚至 可 用 于 有 系统 模型 可 用 的 
情况 ,这 时 它 提供 多 近 策 咯 选 代 的 一 种 亚 代 。 

神经 动态 规划 技术 在 求解 主要 关心 的 规划 为 大 规模 问题 时 有 特殊 的 效果 。 对 于 这 类 问 
题 ， 由 于 需要 搜索 的 状态 空间 太 大 ， 传 统 的 动态 规划 方法 很 难 应 用 。 确 实 ， 神 经 动态 规划 已 
成 功 应 用 于 求解 许多 不 同 领域 的 困难 的 现实 世界 的 问题 . 包括 十 五 子 棋 (Tesaum, 1989， 
1994)， 组 合 优化 ( Bertsekas and Tsitsiklis,1996) ， 电 梯 调 度 (Crites and Barto,1996) 和 动态 频段 分 
配 (Singh and Pertsekas, 1997;Nie and Haykin,1996,1998) 。 王 面 我 们 稍微 详细 地 描述 对 十 坪 子 棋 
的 应 用 。 

在 Tesaum(1994) 首 次 报告 了 基于 神经 网 络 的 计算 机 程序 选手 殉 十 五 子 械 ， 随 后 在 Tesauro 
《1994) 给 出 了 改进 ， 它 是 一 个 给 人 印象 特别 深刻 的 成 功放 事 ， 并 且 己 成 为 推动 神经 动态 规划 
中 研究 的 源泉 。 十 五 子 棋 是 一 种 古 攻 的 双人 棋盘 游戏 。 沿 着 -- 条 有 效 的 .- 维 路 径 对 弈 。 游 戏 
者 双方 轮流 掷 一 对 山子 ， 相 应 地 沿路 径 的 相反 方向 移动 他 们 的 棋子 。 游 戏 者 的 合法 移动 棋子 
依赖 于 掷 仍 子 的 结果 和 棋盘 布局 。 首 先 把 白 己 的 所 有 民 子 移 到 棋盘 的 最 终日 标 者 为 胜 者 。 游 
葡 可 用 一 个 Markor 决策 过 程 建 模 。 它 的 状态 定义 为 棋盘 布局 的 描述 、 掷 仍 子 的 结果 和 游戏 
者 作 的 移动 。Tesaumo(1989) 利 用 监督 学 习 建 立 了 神经 - 十 五 子 棋 的 最 初 形式 。 给 定 状态 的 
“初始 "描述 ， 它 能 学 会 中 等 以 上 的 水 平 。 报 道中 也 许 最 有 趣 的 发 现 为 良好 的 规模 效应 ， 也 就 
是 说 ,神经 网 络 的 大 小 和 训练 次 数 增 加 到 -- 定 规模 ， 可 以 观察 到 性 能 有 重要 的 提高 。 研 究 使 
用 的 神经 网 络 为 使 用 反 向 传播 算法 训练 的 多 层 感知 器 (MLP)。 利 用 具有 4 个 隐藏 神经 元 的 
MILP 对 总 共 200 000 局 游戏 进行 训练 获得 了 节 好 的 性 能 。 在 随后 的 Tesauro(1994) 研 究 报告 中 
利用 一 种 称 为 系 观 (optimistic)TD4X) 的 策略 选 代 形 式 训练 神经 网 络 。TD(A) 代 表 时 序 差 分 学 
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习 ， 


这 归功 于 Sutton( 1988)。 乐 观 TD(X) 是 用 于 逼近 cost-to-g 函数 六 的 基于 模拟 的 方法 ， 在 


该 方法 中 策略 被 新 的 策略 上 所 替代 ， 新 策略 在 每 步 状态 转移 时 逼近 彤 赴 贪 心 的 
(Bertsekas and Tsitsiklis,1996) 。 基 于 这 个 神经 动 仿 规划 方法 的 计算 机 程序 通常 称 为 TD - 十 五 
子 檬 ，Tesauro 添加 了 状态 的 ( 即 特征 ) 提 取 函 数 作为 神经 网 络 输 和 表示， 使 得 TD - 十 工 子 棋 
达到 优秀 大 师 的 水 平 ， 非 常 接近 于 世界 上 最 好 的 棋 手 。 文 持 这 个 论断 的 事例 是 大 量 有 关 
TD -十 无 了 了 横 利 几 个 此 界 级 棋 王 进行 对 弈 的 试验 (Tesauro,1995) - 


注释 和 参考 文献 


[] 








增强 式 学 习 的 传统 处 理 方法 植 根 于 心理 学 ， 可 追溯 到 Thomdike(1911) 关 于 动物 学 习 早 
期 的 工作 和 Pavlov(1927) 关 于 条 件 反射 的 研究 ， 对 传统 增强 式 学 习 的 方法 的 贡献 还 包括 
Widrow et al.(1]973) 的 工作 ; 在 那 篇 文章 中 ， 引 入 了 评价 (eritic) 的 概念 。Hampson(1990) 
以 书 的 形式 讨论 传统 的 增强 式 学 习 。 
对 现代 增强 式 学 习 的 主要 贡献 包括 Samuel(1959) 有 关 他 的 著名 的 棋子 游戏 程序 的 工作 ， 
Barto et 可 (1983) 关于 所 适 应 评价 系统 的 工作 ，Sutten (1988) 关于 时 序 差 分 (temporal 
difierence) 方 法 的 工作 和 吕 atkins(1989) 关 于 已 - 学 习 的 工作 。White and Sofge(1992) 关 于 
智能 控制 的 手册 给 出 关于 White 和 Jordan 的 最 优 控制 、HBart 的 增强 式 学 习 和 自 适应 评 
价 方法 以 及 Werbos 的 启发 式 动态 规划 的 材料 。 

Bertsekas and Tsitsiklis(1996) 第 一 次 以 书 的 形式 给 出 现代 增强 式 学 习 的 处 理 。 有 关 增强 
式 学 习 的 历史 资料 ， 参 看 Sutton and Barto(1998) 。 

动态 规划 由 R. 了 ,Bellman 等 在 20 世纪 50 年 代 晚期 提出 ， 参 看 Bellman(1957) ，Belman 
and Dreyfus( 1962)， 有 关 该 主题 的 详细 展开 参看 Bertsekas(1995Sb) 的 两 卷 书 
策略 选 代 和 值 选 代 是 动态 规划 的 两 个 主要 方法 。 另 外 有 两 个 值得 注意 的 方法 :Gauss- 
Seidel 方法 和 异步 动态 规划 (Barto et 由 . ，1995;， Berisekas，1995b) 。 在 Gauss-Seidel 方法 
中 ， 串 行 扫描 所 有 状态 ， 每 个 状态 根据 其 他 状态 的 最 新 代价 进行 竞争 ， 在 一 个 时 刻 只 
更 新 一 个 状态 的 eostrto- 操 函数 。 异 步 动态 规划 和 Gauss-seidel 的 区 别 在 于 它 没有 组 织 
系统 化 的 依次 打 措 状态 集 。 

Watkin(1989) 在 他 的 博 十 论文 的 第 % 页 ， 对 Q- 学 习 做 如 下 评语 : 

“附录 1 给 出 这 个 学 习 方 法 对 有 限 Matkov 决策 过 程 工作 的 证 明 。 证 明 也 表明 该 学 习 方 
法 会 很 快 收敛 到 最 优 行动 ~- 值 两 数 。 虽 然 这 是 非常 简单 的 思想 ， 据 我 所 知 ， 以 前 从 本 
被 明显 提出 。 但 是 必须 指出 ， 有 限 Martkov 决策 过 程 和 随机 动态 规划 用 于 若干 不 同 领域 
已 经 被 广泛 研究 三 十 多 年 了 ， 它 不 像 Monte - Carlo 方法 那样 以 前 无 人 考虑 过 。” 

在 对 这 些 评论 的 一 个 足 注 中 ，Barto ct al (1995) 指 出 ， 虽 然 对 状态 - 行动 对 碰 值 的 思想 
被 Denardo(1967) 所 采用 ， 构 成 动态 规划 方法 的 基础 ， 但 他 们 没有 看 见 比 Watkins 的 
1989 论文 更 早 的 像 凡 - 学 习 这 样 用 于 佑 计 这 些 值 的 算法 。 

Watkins(1989) 给 出 Q -学 习 收 敛 定 理 证 明 的 概要 ， 后 来 在 Walkins and Dayan(1992) 中 给 
则 了 其 改进 。Tsilsiklis(1994) 给 出 了 Q -学习 收 伍 的 更 一 般 的 结果 ， 也 可 参考 Benlsekas 
and Tsisiklis( 1996)。 
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习题 


Belman 的 最 优 准 则 
12.1 当 折 扣 因 子 y 接近 于 1 时 ，(12.22) 中 cost-to-go 明 数 的 计算 变 长 。 为 什么 y 说 明 


你 的 回答 的 理由 。 
12.2 在 本 题 中 我 们 给 出 由 Ross(1983) 香 到 的 关于 Beltman 最 优 性 方程 (12.22) 的 另 一 个 


(a) 令 x 为 任意 策略 ， 假 设 r 在 时 间 步 0 选择 行动 。 的 概率 为 pn ，cE%,。 那 么 

7(D = > po(eCia)+ 症 (omrO) 
其 中 耻 ( 门 代表 从 时 间 步 工 以 前 的 cost-to-go 函数 的 期 望 ， 这 里 假设 在 时 间 步 工 状 态 为 
且 使 用 策略 x。 由 此 证 明 





是 
古人 间 > (ee) +Y 用 (e)7CO) 
其 中 了 (2yJOD) 
(bb) 令 天 是 在 时 间 步 0 选择 行动 ee 的 策略 ， 如 果 下 一 个 状态 为 /， 可 看 作 过 程 以 状态 了 


开始 ， 遵 循 策略 mx 使 得 
万 (门生 7JCO)+e 





其 中 * 是 一 很 小 正 数 。 由 此 和 证明 
TD > ma(e(Pe) ty 症 m(o1D) + 天 
(e) 用 (本 和 (导出 的 结果 证 明 起 (12.22)。 
12.3 式 (12.22) 表 示 个 方程 的 线性 方程 组 ， 每 个 状态 用 一 个 方程 。 令 
王 =- [FPCD ,FPCND]7 
cp) = [ce 人 (Lase(2,，egNso)]7 


pan po Ps 
PC = (0 (的 Po 
PH) pool pw(g 


证 明 式 (12.22) 计 以 重新 所 成 等 价 的 矩阵 形式 ， 
(I- ?>P(O) 闻 = eco) 
其 中 工 为 单位 矩阵 。 讨 论 胡 示 浆 个 状态 的 costrio-go 函数 的 向 量 玉 的 惟一 性 。 
12.4 在 12.3 节 中 我 们 推导 用 于 有 限 范 围 问 题 的 动态 规划 算法 。 在 本 题 中 对 一 个 折扣 
问题 重新 推导 这 个 算法 ， 其 中 cost-to-go 函数 由 下 式 定义 ， 


抽 =] 
00) = 若 [| 袜 yeCrox) aa) 
4 


























特别 地 ， 证 骨 
Ai) = min 亚 [ge(XoACao)) +YJCN 
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策 赂 选 代 
12.5 在 12.4 节 中 我 们 说 cost-to-go 函数 满足 
Jo 
证 时 这 个 论断 。 


12.6 讨论 式 (12.25) 描 述 的 论断 的 重要 性 。 
12.7 利用 控制 器 评价 系统 (contmller critic system) ， 涪 明 策略 迭代 算法 中 策略 更 新 和 策 
略 求 信之 间 的 相互 作用 。 
值 和 代 
12.8 一 个 动态 规划 问题 涉及 总 共 闪 个 允许 状态 W 个 允许 行动 。 假 定 使 用 一 个 稳定 策 
略 ， 证 明 值 迭代 算法 的 一 次 选 代 需 要 阶 为 沾 W 的 操作 。 
12.9 表 12-2 给 出 依据 对 状态 半 % 的 costto-go 晃 数 严 ( 让 构造 的 值 选 代 算 法 公式 的 小 
结 。 依 撕 Q- 因子 0(i，c) 重 新 构造 这 个 算法 公式 。 
12.10 策略 迭代 总 是 在 有 限 步 后 终止 ， 但 是 值 欠 代 可 能 要 无 限 次 欠 代 。 讨 论 这 两 个 动 
态 规划 方法 之 间 的 其 他 差异 。 
Q- 学 习 
12.1I 证 明 
[9] 帮 (D = zi Qia) 
12.12 Q-~ 学 习 算 法 有 时 称 作 值 适 代 策略 的 昌 适 应 形式 。 证 明 这 种 描述 的 正确 性 。 
12.13 构造 由 表 12-4 小结 的 逼近 Q -学 习 算法 的 信号 流 图 。 
12.14 表 12-4 小 结 的 逼近 Q - 学 习 算 法 假定 缺乏 状态 转移 概率 的 知识 。 候 定 可 以 用 这 
Gas| 些 概率 ， 重 构 这 个 算法 。 























第 13 章 


13.1 简介 


使 用 前 饶 网 络 的 时 序 处 理 


时 间 征 学 习 过 程 的 基本 组 成 。 它 可 以 是 连续 的 ， 也 可 以 县 离散 的 。 无 论 其 形式 如 何 ， 时 
间 是 一 个 有 序 实 体 ， 是 在 实践 中 盘 到 的 许多 认 知 任务 如 视觉 、 语 音 、 信 号 处 理 以 及 马达 控制 
的 基础 。 通 过 将 时 间 引信 神 经 网 络 的 运行 ， 使 它 能 跟踪 在 一 些 非 平稳 过 程 (如 语音 信号 、 需 
达 信号 、 发 动机 引擎 信号 、 股 票 市 场 价格 波动 ) 中 统计 的 变化 。 问 题 是 : 我 们 如 何在 神经 网 


络 运 行 中 嵌 人 时 间 ? 这 个 基本 问 
。 隐 式 表示 。 时 间 是 通过 
输入 信号 经 过 统一 采样 ， 和 网 络 输入 居 

本 的 不 同 

构 里 。 























道 维持 林 


为 了 抽取 目标 物 的 准确 的 距离 信息 (Suga and Kanwal, 1995)。 当 从 目标 的 回 
延 以 后 被 接收 时 ， 一 个 具有 匹配 的 延迟 线 的 神经 元 (在 听 沉 系统) 进行 响应 ， 


段 未 知 时 
从 而 提供 目标 范围 的 估 诗 值 。 


题 的 答案 在 于 两 个 可 能 方法 之 一 ， 
其 作用 于 信和 号 处 理 的 效果 以 一 种 隐 含 方式 来 表示 的 [- 。 例 如 ， 


序列 作 卷 积 (conwolved) 。 这 样 ， 


相连 的 每 个 神经 元 的 罕 触 权 值 序列 和 输 人 样 
输入 信号 的 时 间 结构 谷 人 在 网 络 的 空间 结 





显 式 表示 。 时 间 由 它 自身 的 特定 表示 给 出 定 。 如 蝙蝠 的 回声 定位 系统 是 通过 发 射 短 
的 频率 调制 (FM) 信 和 号， 使 得 对 于 每 个 限制 在 FM 扫描 期 间 的 很 短 的 一 个 时 
瑚 的 强度 等 级 。 被 一 组 听觉 接 收 器 编码 的 几 个 不 同 频 率 之 间 的 多 种 比较 是 


间 上 段 的 频 











声 在 经 一 





在 这 一 章 里 我 们 关心 时 间 的 隐 式 表达 ， 这 由 对 一 个 静态 神经 网 络 (如 多 层 感 知 器 ) 提 供 动态 导 


人 性 而 得 到 。 从 而 
为 了 使 神经 网 
“短期 "和 "长 期 "记忆 ， 这 要 依 末 于 保留 时 甩 





络 为 动态 的 ， 几 须 给 它 记忆 ( 





项 任务 有 一 个 时 





。 神 经 网 
由 此 训练 数据 集 的 信息 内 容 存 储 ( 部 分 或 者 全 部 ) 在 网 
间 维 数 ， 我 们 需要 某 种 形式 的 短期 记 亿 使 
神经 网 络 结构 内 建立 短期 记忆 的 方法 就 是 使 用 时 延 (time delay)， 这 可 以 在 网 


使 得 神经 网 络 对 信息 承载 信号 的 时 间 结构 作出 响应 。 


memory)。 正 如 第 2 章 指 出 那样 ， 记 忆 可 分 为 
络 的 长 期 记忆 是 通过 监督 学 习 建 立 的 ， 
络 的 突 触 权 值 上 。 但 是 ， 如 果 当 前 的 这 
经 网 络 为 动态 的 。 一 个 简单 的 在 
络 内 部 的 突 触 层 




















或 网 络 的 输入 层 来 实现 。 在 神经 网 络 中 使 有 
延迟 无 处 不 在 ， 并 且 它 在 神经 生物 信息 处 理 时 
Miller,1987) 。 








本 章 的 组 织 


本 章 的 内 
在 13,2 节 ， 
络 结构 。 


容 分 为 三 个 部 分 。 第 一 部 分 ， 包 





时 延 是 受到 神经 生物 学 启发 ， 因 


为 在 人 脑 中 信和 号 
FE 用 ( Braitenberg, 1967. 1977 , 1986; 








起 着 重要 








括 13.2 节 和 13.3 节 . 论述 网 络 结构 和 模型 。 


我 们 讨论 记忆 的 结构 ， 接 下 来 的 13.3 节 描 述 对 于 信号 时 间 处 理 的 两 种 不 同 的 网 





本 章 的 第 二 部 分 包括 13.4 节 到 13.6 节 ， 论 述 一 类 被 称 为 集中 时 澡 的 前 人 饶 网 络 的 神经 网 
络 ; 术语 “集中 ”(foeused) 指 的 是 短期 记忆 被 全 部 放置 在 网 络 的 前 端 。 在 13.6 节 讨 论 这 一 结 
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构 的 计算 届 实 验 。 

本 章 第 三 部 分 ， 包括 13.7 节 到 13.9 节 ， 论 述 分 布 式 时 滞 前 镇 网 络 ， 在 这 种 网 络 中 延迟 
线 被 分 布 于 整个 网 络 。13.7 节 描述 一 个 神经 元 的 时 空 模型 ， 接 下 来 在 13.8 节 论述 刚刚 提 到 
的 第 一 类 神经 网 络 。 在 13.9 节 讨论 用 于 分 布 式 时 滞 前 僻 网 络 的 监督 学 习 的 “时序 " 反 向 传播 
算法 。 

这 一 章 在 13.10 节 中 以 一 些 最 后 评论 作为 结束 。 

13.2 短期 记忆 结构 


记忆 的 主要 作用 是 将 一 个 静态 的 网 络 转变 成 一 个 动态 的 网 络 。 特 别 地 ， 将 记忆 嵌入 到 诸 
如 通常 的 多 层 感 知 器 的 静态 网 络 结构 中 ， 网 络 的 输出 变 成 时 间 的 函数 。 建 立 非 线 性 动态 系统 
的 这 种 方法 是 直接 的 ， 因 为 它 对 职责 作 了 明确 的 分 离 : 静态 网 络 负责 非 线性 的 处 理 ， 而 记忆 
负责 时 间 的 相关 处 理 。 


























短期 记忆 可 以 在 连续 的 时 间或 离散 的 时 间 中 实现 。 连 续 时 间 用 表示， 离散 的 时 间 用 
4 才 示 。 图 13-1 中 电阻 电容 电 耻 图 就是 一 个 连续 时 间 让 记 。。 一 We 
的 例子 ， 它 的 特征 是 的 脉冲 响 庶 ( 即 记忆 痕迹 ) 六 (已 按 时 间 输入 信号 输出 信号 
的 指数 闻 数 误 碱 。 在 本 章 后 面 描述 的 神经 元 加 性 便 型 的 模拟 。  】 。 
实现 中 ， 这 个 电路 在 突 甬 级 负责 记忆 。 这 一 节 我 们 主要 关心 图 11 曲阳 电 兴 呈 
离散 时 间 记忆 。 


处 理 离 艇 时 间 系统 的 一 个 有 用 工具 是 z - 变 搁 。 令 | x( njj 表 示 离 散 时 间 序列 ， 可 以 扩展 
到 无 限 的 过 去 。 它 的 :~ 变换 X(z) 定 义 为 
(za) -= so)z (13.D 


其 中 z 是 单元 延 过 操作 符 ; 也 就 是 说 ，z 作用 在 *(z) 上 ， 产 生 延 迟 形 式 z(* - 1)。 根 设 
xz( 站 用 于 脉冲 响应 上 (=) 的 一 个 离散 时 间 系统 。 这 个 系统 的 输出 *(n) 由 下 面 的 郑 积 和 定义 ; 
7 = 六 MDztn 一 昌 0 
当 sx(m) 等 于 单元 脉冲 时 ，y(n) 产 生 系统 的 脉冲 响应 h(m)。z- 变换 的 一 个 重要 性 质 是 时 间 
域 上 的 卷 积 变 成 = 域 上 的 冬 积 (Oppenheim and Schafer,1989; Haykin and Van Veen,1998 )。 我 们 
如 果 定义 序列 1A(n)f 和 #iy(m)i 的 = 一 变换 分 别 为 及 (z) 和 了 (z)， 则 有 
TKz) = 吾 (z)T(z) (13.3) 
或 者 等 价 地 的 可 = 世 全 (13.4) 
函数 瓦 (z) 称 为 该 系统 的 传递 函数 (transfar fnction)。 
图 13-2 显示 一 个 含有 P 个 相同 节点 级 联 的 离散 时 间 记 忆 框图 ;今后 p 称 为 记忆 的 阶 。 
每 个 丐 迟 片段 ， 林 以 看 作 操作 符 ， 由 传递 明 数 6(z) 定 义 其 特征 (如 图 所 示 )。 同 样 ， 每 个 片 
段 可 以 根据 脉冲 响应 g(=) 来 描述 ， 具 有 下 述 两 个 特征 ， 
， 它 是 因果 的 ， 即 当 m<0 时 ，&(n) =0。 
， 它 是 归 一 化 的 ， 即 有  ，。f g(m) 1= Lo 
因此 g(n) 称 为 离散 时 间 记 忆 的 产生 核 。 
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(single input-multiple output,SIMO )， 并 上 日 
相连 接 的 节点 ， 称 为 抽 头 (tap)。 注 意 对 


抽 头 是 属于 输入 。 
可 以 

















义 为 g(n) 的 P 个 逐次 卷 积 ， 或 者 等 价 了 


输出 端 


岁 13-2 P 阶 广义 抽 头 延 运 线 记忆 
根据 图 13-2， 我 们 可 以 形式 地 定义 离散 时 间 记忆 为 线性 时 间 不 变 的 单 输 人 多 输出 系统 


刀 (8) 的 第 一 时 间 征 (moment) ， 表 示 为 











层次 上 。 当 抽 头 数目 固定 时 ， 记 忆 深度 和 记忆 分 辩 率 的 乘积 对 P 阶 记忆 是 一 个 常 景 。 
不同 的 这 度 只 和 分 辩 率 尺 ， 这 可 以 用 下 面 两 个 记忆 结构 








来 说 日 











选择 不 同 的 产生 核 gp (m) 会 产 4 





D = 福 几 CD) 
一 个 低 深度 娘 的 记忆 只 能 将 信息 内 容 保持 较 短 的 时 间 ， 而 高 深度 的 记忆 则 能 保持 较 长 时 间 。 
记忆 分 辨 棕 记 为 灭 ， 指 的 是 每 个 单位 时 间 内 记忆 结构 中 的 抽 头 数 鼎 。 一 个 高 分 辨 率 尺 的 记 
忆 结 构 能 将 输入 的 序列 信息 保持 在 精确 的 层次 上 ， 而 低 分 辨 率 的 记忆 结构 只 能 保持 在 粗糙 的 





头 延迟 线 记 忆 ”图 13-3 显示 的 杠 

















其 产生 核 满 足 上 述 遇 个 条 件 、 那 些 与 记忆 输出 端点 
-个 己 阶 的 记忆 来 说 ， 共 有 P + 工 个 抽 头 ， 只 有 一 个 


深度 和 分 辩 率 来 衡量 记忆 结构 的 属性 。 设 记忆 结构 中 总 的 脉冲 响应 为 包 (na)， 定 
FF Cs) 的 逆 = - 变换 。 记 已 深度 记 为 户 ， 定 义 为 


(13,5) 


是 短期 记忆 最 简单 和 最 常用 的 形式 ， 称 为 抽 头 延 


迟 线 记 忆 (tapped delay line memory)。 它 包含 p 个 单位 延迟 操作 符 ， 每 个 都 表示 为 B(z) = 
z " 。 也 就 是 说 ， 产 生 核 为 g(n) =8(n- 1) ， 其 中 其 中 8(z) 是 单位 脉冲 





1， = 0 
3(n) -| “ 
0， 于 天 0 
间 天 1 ww， 间 宛 2 单元 
二 
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xm-2 >xa 一 PP+ 轨 
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深度 六 = pP， 这 一 点 直观 上 是 满足 的 。 从 


输出 喘 


图 13-3 通常 的 p 阶 抽 头 延迟 线 记忆 
图 13-3 的 抽 头 延迟 线 的 总 脉冲 响应 为 芒 (z) = Sa-Pp)。 将 印 (代入 式 (13.5) 中 产生 记忆 

















《13.6) 


13-3 中 我 们 可 以 看 出 每 个 单位 时 间 内 只 有 一 个 抽 


头 ; 因此 ， 丸 = !。 这 样 抽 头 延迟 线 的 记忆 深度 随 着 p 的 阶 数 增 大 而 线性 增长 ， 但 是 它 的 记 


忆 深 度 在 单位 时 间 内 是 固定 不 变 的 ;并且 它 的 深度 -分辨 率 乘积 也 是 一 个 常数 。 
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我 们 需要 额外 的 自由 度 具 实 击 对 于 记忆 深度 的 控制 。 这 种 准备 可 以 通过 下 面 考 虑 的 一 个 
对 抽 头 延迟 线 的 替代 来 提供 。 往 入 几 2 葵 出 
Gamma 记忆 。 图 13-4 显示 用 于 被 称 为 gamma 。 篆 导 ” 7 信号 
记忆 的 记忆 结 梅 的 基 洒 功能 块 C(z) 的 信和 号 流 周 。 1 
特别 地 ， 记 忆 结 梅 的 往 个 部 分 包含 一 个 带 有 单位 


延迟 :-! 的 反馈 环 以 及 一 个 可 调整 的 参数 k。 每 一 图 13-4 -个 gamma 记忆 片段 的 信 半 流 创 











个 这 样 部 分 的 传递 函数 为 几 
人 四 
(2 = = 0 (13.7) 
为 了 稳定 性 ，C(z) 在 *=1-A 处 的 惟一 极点 必须 在 z 平面 的 单位 图 内 。 这 就 要 求 
0<P<2 《13.8) 
Gamma 记忆 的 产生 赎 尾 B(z) 的 首 =- 变 换 ， 即 
(ma) = AL 一 po 站 3 上 (13.9) 
式 (13.8) 中 的 条 件 保 证 gz(n) 随 着 = 增 大 至 无 穷 而 指数 地 衰减 到 零 。 
Gamma 记忆 总 的 脉冲 响应 是 总 的 传递 函数 的 道 > - 变换 
侣 (2) = {: 二 二 本 
即 5 人 (aaa 天 六 力 (13.10) 





其 中 (:) 是 直人 中 - 全 人 由 -e+ 电 定义 的 二 项 式 系数 ，* 和 为 整数 。 对 于 不 同 的 


卫 ， 总 的 脉冲 响应 &, (na) 表 示 Gamma 闭 数 的 被 积 本 数 的 离散 形式 (deyries and Frincipe, 1992 ) ， 

这 正 是 记忆 命名 的 原因 。 图 13-5 显示 一 能 脉冲 响应 妈 (n)》， 它 们 对 归 一 化 其 中 &= 0.7， 

P= 1,2,3,4。 注 意 在 图 13-5 中 时 间 坐 称 轴 按 参数 标 度 。 这 种 标 度 具 有 将 gr (nm) 的 峰值 定 

位 在 上 = p 的 作用 。 
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图 13-5 对 p=1,2,3,4 的 Camma 记忆 的 脉冲 响应 徐 ， 其 中 p= 0.7 
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Gamma 记忆 的 深度 为 px， 分 辩 率 为 上 ， 深 度 - 分 辩 率 的 悄 积 为 p。 相 应 地 ， 通 过 选择 
小 于 单位 的 & 值 ， 对 于 特定 的 阶 p，Gamma 记忆 在 抽 头 延迟 线 的 深度 有 所 提高 (但 是 牺牲 了 
分 辨 率 )。 当 = 1 时， 这 些 量 将 减 至 各 自 的 抽 头 延迟 线 上 假设 的 值 。 因 此 ， 抽 头 延 迟 线 只 是 
Gamma 记 记 的 一 个 特例 。 这 个 结论 何 样 可 以 在 式 (13.9) 中 设置 = !1 得 到 证 实 。 如 果 靖 大 于 1 
而 小 于 2， 那么 (1 - 站 在 这 个 方程 中 变 为 负 值 ， 但 是 绝对 值 小 于 lu 


13.3 用 于 时 序 处 理 的 网 络 体系 结构 


时 序 处 理 的 网 络 结 梅 不 只 一 种 形式 ， 这 正如 记忆 结构 一 样 。 在 这 一 节 我 们 将 描述 两 种 前 
乌 网 络 体系 结构 ， 它 们 分 别 以 自己 的 方式 丰富 了 时 序 处 理 文献。 


NETtalk 


NETtalk 由 Sejnowski and Rosenberg(1987) 设 计 ， 是 将 英语 语音 转化 为 音素 的 一 个 大 规模 并 
行 分 布 式 网 络 的 一 个 例子 。 一 个 音素 (phoneme) 是 一 个 基本 的 语言 单位 。 图 13-6 就 显示 一 个 
NETtalk 的 示意 图 ， 它 建立 在 一 个 多 层 感知 器 的 基础 上 ， 输 入 层 有 203 个 感知 节点 的 ， 隐 藏 
层 有 80 个 神经 元 ， 和 输出 层 有 26 个 神经 元 。 所 有 神经 元 使 用 sigmoid(jogistic) 型 激活 酚 数 。 这 
个 网 络 的 突 触 连 接 有 18 629 个 ， 每 个 神经 元 包含 有 可 变 的 阐 值 。 闭 值 是 偏 置 的 负 值 。 这 个 
网 络 使 用 标准 的 反 向 传播 算法 进行 训练 。 
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图 13-6 NETlk 网 络 体系 结构 的 示意 图 


这 个 网 络 有 七 组 输入 节点 。 每 组 对 输入 文本 的 1 个 字母 进行 编码 。 从 而 每 次 将 7 个 字母 
组 成 的 串 呈 现 给 输入 层 。 训 练 过 程 的 期 望 响 应 是 和 ?7 个 字母 窗口 中 央 的 一 个 ( 即 第 4 个 ) 相 联 
系 的 正确 音素 。 另 外 6 个 字母 (在 中 间 字 母 两 边 各 3 个 ) 对 网 络 的 每 一 个 决策 来 说 提供 部 分 
的 上 下 文 。 通 过 一 个 字母 接着 一 个 字母 的 方式 使 文本 通过 窗口 。 在 处 理 的 每 一 步 中 ， 网 络 
计算 一 个 音素 ， 每 学 完 一 个 单词 后 ， 网 络 的 突 触 权 值 就 根据 计算 出 的 发 音 与 正确 的 发 音 的 接 
近 程 度 进行 调整 。 

NETralk 的 性 能 展示 了 和 观察 到 的 入 特性 的 一 些 相似 之 处 ， 可 总 结 为 以 下 几 点 (Sejnowski 
and Rosenberg,1987 )。 

， 训练 遵守 有 力 的 规律 (power ljaw) 。 

*。 网 络 学 习 的 单词 越 多 ， 它 泛 化 和 新 词 正 确 发 音 的 性 能 就 越 好 。 

* 当 网 络 的 突 触 连接 受 破坏 时 .网络 性 能 的 下 降 非 常 缓慢 。 
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， 在 网 络 遭 到 破坏 以 后 ， 进 行 重新 学 习 ， 学 习 的 速度 要 比 原始 (以 前 的 ) 训 练 快 得 多 。 
NETealk 出 色 地 说 明了 学 习 的 很 多 方面 的 微小 继 节 , 在 开始 的 时 候 ， 在 它 的 输入 模式 中 具有 
大 量 “ 先 天 "的 知识 并 且 通 过 实践 逐渐 获得 将 英语 语音 转化 为 音素 的 能 力 。 但 是 ， 它 还 没有 走 
向 实际 的 应 用 。 
时 延 神经 网 络 


使 用 普 适 的 时 间 延 迟 来 执行 时 序 处 理 的 通用 神经 网 络 就 足 所 谓 的 时 延 神经 网 络 (time 
[@] delay neuml network,TDNN)， 由 Lang and Hinton(1988) 利 多 aibel et al.(1989) 第 一 次 描述 。TDNN 
是 一 个 多 层 前 镇 网 络 ， 其 隐藏 层 神经 元 利 输出 神经 元 都 是 沿 时 间 复 制 。 它 被 设计 用 于 显 式 地 
捕获 在 利用 声 谱 图 (speetmgram) 识 别 一 个 孤立 单词 (音素 ) 的 过 程 中 遇 到 的 时 间 对 称 性 的 概念 。 
一 个 声 谱 图 是 一 张 酚 维 的 网 像 ， 其 纵 轴 表 示 频 率 ， 横 轴 表 示 时 间 。 妓 像 的 强度 ( 灰 庶 ) 与 信号 
的 能 量 相对 应 (Rabiner and Schafer, 1978)。 图 13-7 显示 TDNN 一 个 隐藏 层 形式 (Lang and 
Hinton,1988)。 输 入 层 包 括 192(16 x 已) 个 用 于 对 过 谱 进 行 编码 的 感知 节点 。 陷 藏 层 包含 8 个 
隐藏 神经 元 的 10 次 复制 而 输出 层 包含 4 个 输出 神经 元 的 6 次 复制 。 一 个 隐藏 神经 元 的 不 
同 复制 应 用 相同 罕 触 权 值 集合 到 很 窄 的 (三 倍 于 时 间 步 长 ) 声 谱 窗 口 之 中 ;相似 地 ， 输 出 神经 
元 的 不 同 复制 应 用 枯 同 突 触 权 值 集合 到 由 隐藏 层 计算 出 的 伪 声 赠 图 的 很 窗 的 (5 个 时 间 步 长 ) 
窗口 之 中 。 图 13-7b 对 图 13-7a 的 复制 神经 网 络 提供 时 延 解释 ， 因 此 称 为 “时 延 神经 网 络 "。 

这 个 网 络 共 有 544 个 突 触 权 值 。Jang and Hinton(1988) 使 用 TDNN 对 四 个 孤立 的 词 : 

芭 
4 个 输出 单元 ， 


， 每 个 和 所 有 隐 
1 量 上 输出 单元 (总 单元 连接 
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相 是 轩 忆 12.345 
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| @@ 3 个 陵 理 元， 
每 个 和 所 有 输 

各 。 入 节点 连接 






























上 急 

上 时 间 丐 壕 

四 1.2.3. 

上 输入 单元 

上 光谱 格 的 16 输 入 节点 
F 时 间 切 上 

上 一 -一 








可 卓 
图 13-7 
中) 一 个 隐藏 昼 经 元 和 输出 神经 元 沿 时 间 复 制 的 网 络 
划 时 延 神经 网 络 (TDNN) 表 示 ( 经 人 允许， 摘自 K.J.Jang and C.E.Hinton，1988) 
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ee" ，dee ee"，vee 进行 识别 ， 这 要 炒 在 网 13-7 中 使 用 思 个 输出 神经 元 。 通 过 使 用 不 同 
于 训练 数据 的 测试 数据 获得 了 93 旬 的 识别 率 . 在 -个 更 精心 研究 的 报告 中 Waibel et al. 
(1989) 使 用 了 两 个 隐藏 层 ， 用 于 识别 三 个 孤立 的 单词 ,“bee"，dee" 利 “gee"。 用 二 个 人 的 发 
音 作为 测试 集 ， 在 件 能 测试 中 ， 取 得 了 平均 .5%% 的 识别 率 。 

TDNNY 对 于 包含 一 串 同 定 维 数 特征 向 晶 ( 比 如 音素 ) 的 时 序 模式 的 识别 具有 最 好 的 效果 。 
但 是 ， 在 实际 的 语音 识别 关中 ， 假 设 讲话 的 信号 能 被 正确 地 切 分 为 它 的 组 成 音素 是 不 切合 实 
际 的 。 相 反 , 对 语音 模式 的 超 切 分 (supersegmentcd) 时 序 结构 恰当 地 建立 模型 是 重要 的 。 特 
虽 ， 语 音 识别 器 不 得 不 去 处 理 对 于 持续 时 间 变 化 很 大 的 词 和 句子 片段 以 及 非 线性 时 序 结构 。 
权 对 诱 音信 号 的 这 些 自然 特征 进行 建 模 ， 语 音 识 别 领 成 的 传统 方法 是 使 用 一 个 状态 转换 结 
构 ， 就 像 隐 式 Markor 模 贡 一 样 (Rahiner 1989;Jelinek,1997)。 基 本 上 ， 隐 式 Markov 模型 (hidden 
Markov model，HMMD) 表 示 由 固有 马尔 可 夫 链 产 牛 的 随机 进 种 ， 以 及 与 隐 含 状态 相 联系 的 一 组 观 
察 分 布 ; 参见 第 11 章 注 释 [11]。 在 文献 中 已 有 很 多 混合 型 TDNN 和 HMM 被 研究 上 


13.4 集中 式 时 灌 前 馈 网 络 


蔬 态 神经 网 络 (如 多 层 感知 器 ， 径 向 基 函 数 网 络 ) 的 原型 应 用 是 结构 化 模式 识别 。 相 反 ， 
时 序 模 式 识别 要 求 对 随时 间 演 化 的 模式 进行 处 理 ， 对 特定 时 刻 的 响应 不 仅 依赖 于 输入 的 当前 
值 ， 还 依赖 于 以 前 的 值 。 图 13-8 显示 建立 在 静态 神经 网 络 上 的 非 线性 站 波 器 的 框图 (Mozer， 
1994)。 网 络 是 通过 短期 记忆 来 模拟 的 。 特 别 起 ， 例 如 给 定 由 输入 信号 的 当前 值 x(n) 以 及 它 
的 前 疡 个 值 z(za - 1)…x(a-P) 组 成 的 输入 ， 它 们 存储 在 阶 延迟 线 记忆 上 ， 调 整 神经 网 
络 的 自由 参数 使 得 网 络 笨 出 y(m) 与 期 望 响应 4(m) 的 平方 误差 达到 最小。 

图 13- 8 所 示 的 结构 可 以 在 单个 神经 元 级 或 者 一 个 神经 元 网 络 级 来 实现 。 这 两 情况 分 别 
在 网 13-9 和 图 13-I0 给 出 。 为 了 简化 表达 ， 我 们 用 了 抽 头 延迟 线 记 忆 作为 图 13-9 和 图 13- 
10 中 的 短期 记忆 结构 。 很 明显 ， 这 两 个 图 都 可 以 通过 使 用 传递 函数 6{(z) 单 元 代替 z-: 来 进 
行 推广 。 
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误差 信号 


0 
图 13-8 建立 在 郑 态 坤 经 网 络 上 的 非 线性 滤波 器 


图 13-9 中 的 时 序 处 理 单元 是 由 其 自己 的 抽 头 连接 到 神经 元 突 触 的 拥 头 延迟 线 记忆 组 成 
的 。 抽 头 延迟 线 记忆 捕获 包含 在 输入 信 羡 下 的 时 序 信 息 并 且 神 经 元 将 那个 信息 嵌 人 到 它们 自 
已 的 罕 触 权 值 中 。 图 13-9 中 的 处 理 单元 称 为 集中 式 神经 渡 波 器 (focused neumonal filter) ， 集 中 
的 意义 在 于 整个 记忆 结构 都 位 于 单元 输入 的 未 端 。 滤 波 器 的 输出 ， 对 输入 x(m) 及 其 前 面 的 
值 xCa -1D xz(a 一 pp) 的 响应 ,由 
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图 13-10 集中 式 时 澡 前 局 神 经 网 络 {TLFN);， 为 表示 方便 省略 了 偏 置 层 


za) = 区 CDx(n -有 D+ 四 (3 


给 定 ， 其 中 ，$(' ) 是 神经 元 的 激活 函数 ，wj (人 是 突 触 权 值 ， 上 是 仿 置 。 注 意 激活 函数 的 
输 人 包含 偏 壮 加 上 输 人 样本 和 神经 元 的 突 触 权 值 的 着 积 。 
再 看 图 13-10。 它 是 集中 式 时 滞 前 镇 网 络 (focused time lagged feedforward network,TLFN ) , 
这 里 我 们 有 一 个 更 强大 的 非 线性 滤波 器 ， 包 含有 P 阶 的 抽 头 延迟 线 记忆 和 多 层 感 知 器 。 要 
训练 这 个 滤波 器 ， 我 们 可 以 使 用 第 4 章 描述 的 标准 的 反 向 传播 算法 。 在 时 刻 =*， 应 用 于 网 络 
输入 层 的 “时 序 模式 " 即 为 信号 向 量 
x(P) = [x(a)xzta-lxz(n 一 并 7 
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这 可 以 看 作对 非 线性 读 波 器 在 时 刻 的 状态 描述 。 一 个 时 段 包括 一 系列 状态 (模式 )， 其 数 
量 四 记 包 阶 及 训练 样 市 的 数量 W 决定 。 
如 网 13-10 所 未 ,假设 多 层 感知 器 有 一 个 隐藏 层 ， 非 线性 滤波 器 的 输 册 由 


xD- 下 oo = 昌 。 起 外 ( 安 wCDz(e -Dr+ 《13.12) 
给 出 ， 其 中 集中 式 TLRN 的 输出 神经 经 元 假定 是 线 人 的 ; 和 输出 神经 元 的 突 触 仅 值 由 集合 jw 人; 
表示 ，mi 是 隐藏 层 的 大 小 ，5. 为 网 络 的 偏 置 。 
13.5 计算 机 实验 


在 这 个 计算 机 实验 里 ， 我 们 对 图 13-10 中 TLFN 的 使 用 进行 研究 ， 模 拟 一 个 困 难 的 频率 
调制 信号 的 时 间 序 姑 ， 
xm) = sin(m+sinte)) = 01)2，… 
网 络 用 作 单 步 预测 器 ， 对 于 由 集合 ! x(m= - 站 所。 构成 的 输入 ，*(n + TD 代表 期 望 的 响应 。 





络 的 组 成 及 其 参数 如 下 : 

抽 头 延 时 线 记 忆 的 阶 p: 20 

隐藏 层 m, : 10 个 神经 元 

耻 藏 层 神经 元 的 激活 函数 : logistic 下 数 

输出 层 ; 1 个 神经 元 

输出 神经 元 的 激活 函数 线性 函数 

学 习 率 参数 (两 层 ) : 0.0 

动量 常数 ， 无 
用 于 训练 网 络 的 数据 集 有 500 个 随机 模式 ， 每 个 模式 含有 从 时 间 序 列 1xz(n) 让 中 选择 出 来 的 
20 个 时 序 样本 。 


图 13- 11a 显示 由 网 络 对 测试 数据 (以 前 未 见 过 ) 执 行 的 单 步 预测 结果 及 实际 波形 的 琶 加 。 
图 13-11b 显示 预测 的 误差 波形 ， 这 个 误差 定义 为 实际 波形 和 预测 波形 之 间 的 差别 。 预 测 误 
差 的 均 方 值 为 1.2x10-3。 
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图 13-11 单 步 预 测 计 算 机 实验 结果 
如实 际 { 实 线 )? 波 形 和 预测 (应 线 ?波形 的 营 加 “b) 王 调 误差 的 波形 


13.6 通用 短视 映射 定理 


图 13-9 中 的 非 线性 滤波 器 可 以 推广 为 图 13- 12 所 示 的 滤波 器 。 这 个 一 般 的 动态 结构 包 
含 两 个 功能 模块 。 标 号 为 | 久 扩 1 的 模块 表示 时 域 的 多 重 卷 积 ， 那 就 是 赔 一 个 并 行 运行 的 线性 
庵 波 器 组 。 广 是 从 一 个 较 大 的 实 值 核 集 合 中 抽取 出 来 的 ， 每 一 个 都 代表 着 一 个 线性 滤波 器 
的 脉冲 响应 。 块 标号 为 % 的 模块 表示 静态 的 ( 即 无 记忆 的 ) 非 线性 前 馈 网 络 , 如 一 个 善 通 的 
多 层 感知 器 。 图 13-12 中 的 结构 是 一 个 通 5- 
用 动态 映射 器 (universal dynamic mapper)。 

在 Sandberg and Xu(1997a) 中 证 明 对 于 任何 相 入 入 出 
平移 不 蛮 的 超 视 轴 射 (myopic map)， 在 适 xm [一 ?四 
上 度 的 条 件 下 利用 图 13-12 描绘 的 结构 能 够 











poa) | | 






































以 任意 精度 一 致 逼近 。 要 求 一 个 映射 为 短 
视 的 等 价 于 "一致 豪 减 记忆"; 这 里 假设 映 5 四 片 -| 

射 是 办 果 的 (causal) ， 这 意味 着 一 个 只 有 在 卷 积 述 库 。 租 态 非 线 
za =0 时 应 用 和 输 和 人 信号 时 ， 才 在 时 刻 m>0 (信和 塌 。 性 罗 络 
由 映射 产生 输出 信号 。 对 “平移 不 变 "， 我 








们 是 指 如 果 y(n) 是 映射 对 输入 x(n) 产 生 久 13- 12 通用 得 视 哎 贡 定理 的 一 般 结构 


的 输出 ， 那 么 对 于 平移 输入 *(m - nm) ， 映 射 的 输出 就 是 y(ma -~ m)， 这 里 时 间 位 移 m 是 一 
个 整数 。 在 Sandberg and Xa(1997b) 中 ， 他 们 进一步 证 明 对 单 变量 的 、 平 移 不 变 的 、 因 果 的 和 
一 致 误 减 的 记 亿 喘 射 ， 存 在 一 个 Gamma 记忆 和 静态 神 经 网 络 ， 它 们 的 组 会 能 够 以 任意 精度 
一 致 逼近 该 映射 。 

我 们 现在 可 以 正式 地 将 通用 短视 映射 定理 描述 如 下 : 

任何 平移 不 变 的 超 视 动态 映射 可 以 由 含有 两 个 功能 块 的 结构 任意 地 一 至 逼近 : 一 组 线性 
滤波 器 馈 给 一 个 静态 神经 网 络 。 

这 个 定理 包含 的 结构 可 以 采用 集中 式 TLFN 的 形式 。 注 意 当 输入 和 输出 信号 是 有 限 数 旧 
释 量 的 函数 时 (如 图 像 处 理 )， 定 理 依然 成 立 。 

通用 短视 定理 有 着 很 深 的 实际 意义 。 它 不 仅 对 NETtalk 及 可 能 的 Gamma 记忆 扩展 提供 数 
学 基础 ， 而 且 对 更 复杂 的 动态 非 线性 处 理 模型 的 设计 建立 框架 。 在 图 13-12 结构 前 端的 多 个 
卷 积 可 以 使 用 线性 滤波 器 (通过 有 限 冲 激 响应 (FIR) 或 者 无 限 剖 激 响应 ( HR)) 来 实现 。 对 于 静 
态 神 经 网 络 ， 它 可 以 用 多 层 感知 器 、 径 向 基 函 数 网 络 或 者 支持 向 量 机 由 第 4、5 和 6 章 介绍 
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的 训练 算法 来 实现 。 换 名 话说， 在 那 凡 章 中 给 出 的 关于 监督 学 习 的 资料 基础 之 上 ， 我 们 可 以 
很 自然 地 建立 非 线性 滤波 器 或 非 线性 动态 过 程 的 模型 。 最 重要 的 是 ,假设 线性 泪 波 器 本 身 是 
稳定 的 ,图 13-12 中 的 结构 是 固有 稳定 的 因此 ， 对 于 怎样 处 理 短期 记忆 和 无 记忆 非 线性 
性， 我 们 对 它们 的 作用 有 清晰 的 分 工 。 








13.7 神经 元 的 时 空 模型 


如 图 13-9 所 示 的 集中 式 神经 滤波 器 在 这 是 
应 的 罕 触 权 值 之 间 的 组 合 可 以 看 作 是 记 阶 的 有 




















有 一 个 很 有 意思 的 解释 。 单 元 延迟 元 素 与 相 
民 冲 激 响应 (FIR) 滤 波 器 ， 如 图 


13-13a 所 示 。 


FIR 滤波 器 在 数字 信号 处 理 中 为 一 个 基本 的 构件 (Oppenheim and Schafer,1989; Haykin and Van 


Veen,1998)。 相 应 地 . 图 13-9 中 的 集 寺 
波 器 。 如 图 13-14 所 示 ， 在 此 表示 基础 上 通过 
13-]4 是 多 输入 神经 元 滤 流 





孢 的 空间 处 理 能 力 。 
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a 有 限 冲击 响应 (FIR) 滤 波 器 b) 神 经 元 滤波 器 的 非 线性 FIR 滤波 器 解释 
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加 
网 13-14 多 个 输 人 覃 经 元 滤波 器 

然而 另 一 种 描述 图 13-14 的 模型 的 方式 是 将 其 看 作 一 个 分 布 式 神经 元 滤波 器 ， 这 是 在 过 
滤 行 动 在 空间 的 不 同 点 上 是 分 布 的 意义 之 下 。 模 型 的 时 空 特征 描述 如 下 : 
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激活 函数 


仿 置 性 





妈 () 














激活 函数 
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输出 
MD 


式 滤波 器 实际 上 是 一 个 如 图 13-13b 所 示 的 非 线性 旗 
数量 为 ms 的 多 个 输入 我 们 可 以 扩充 神经 
器 的 时 空 模型 。 


e 
= 立 四 (Bxkn- 乳 


突 触 包含 一 个 以 王 阶 FIR 形式 实现 的 线性 离散 时 
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间 波 波 器 ， 主 突 触 计算 信号 处 理 的 空间 维 。 


， 每 个 主 突 触 有 (p + 1] 个“ 


辅助 " 突 触 与 各 自 的 输入 和 FIR 滤波 器 的 记忆 抽 头 相连 接 ，， 


它们 计算 信号 处 理 的 时 间 维 。 
在 图 13"14 中 的 这 个 神经 元 滤波 器 的 突 触 结构 是 树 形 的 ， 如 图 13- 15 描述 。 整 个 突 触 权 


值 的 数目 为 mo(p + 1)。 


至 记忆 1 的 抽 
头 【 包 括 输 入 ) 


至 记 刀 2 的 搞 
藉 【 和 包括 输入 )》 


至 记忆 mm, 的 抽 
买 ( 包 括 输入 ) 








图 13- 35 多 个 输 和 人 神经 元 滤波 器 突 触 结构 的 树 形 描述 
在 数学 术语 中 ， 我 们 可 以 将 神经 元 滤波 器 执行 的 时 空 处 理 表 达 为 




















六 习 站 weDatn-D+ 划 (13.13》 
其 中 凡 ( 门 是 属于 第 个 主 突 甬 的 第 1 个 辖 助 突 触 的 权 值 ， si 人 mn) 是 在 时 刻 = 应 用 于 第 ;个 主 





罕 触 的 输入 值 ， 为 应 用 于 该 神经 元 的 偏 置 。 神 经 元 的 诱导 局 部 域 为 w(n)， 也 就 是 在 式 
《13.13) 中 的 激活 函数 g% " ) 的 变量 ， 它 可 以 看 作对 如 下 连续 时 间 公 式 的 离散 时 间 “ 近 似 ”: 


她 ( 昌 = 


人 
已 CODat -Na+ (13.14) 





在 式 (13.14) 中 积分 是 连续 时 间 输 入 信号 *( 和 表示 突 触 主 的 线性 连续 时 间 滤 波 器 的 冲击 响 
应 咎 ( 电 的 卷 积 。 式 (13.14) 是 一 个 神经 元 诱导 局 部 域 时 空 行为 的 最 通常 撒 述 方法 。 


加 性 模型 








式 (13.14) 给 出 另外 一 种 常 











的 神经 元 时 空 模型 的 基础 。 特 别 地 ， 通 过 使 用 换算 参数 决 


定 一 个 “典型 的 " 突 扰 冲击 响应 的 符号 和 强度 ， 我 们 简化 神经 元 的 时 空 模型 。 在 此 情况 下 有 有 
丙 () = 好 下 (6) 对 所 有 的 《13.15) 
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其 中 态 ( 昌 将 一 个 典型 的 后 突 触 电位 的 时 间 特 征 异型 化 ， 并 且 网 呈 一 个 标量 ， 用 于 傅 定 神经 
元 和 输入 i 之 间 连 接 的 符号 (兴奋 的 或 抑制 的 ) 和 总 强度 (Shamma, 1989 )。 这 样 在 式 (13.14) 
中 代入 式 (13.15)， 并 且 通 过 交换 积分 与 求 和 次 序 ， 我 们 得 到 





ar(D) = 0 人马 mt (站 ( 忆 sxc0) + 013.16) 


其 中 星 号 * 定义 卷 积 。 通 用 冲击 响应 方 (的 形式 依 周 于 要 求 的 细节 数量 。 一 个 常见 选择 为 
指数 岳 数 ， 定 义 为 

















万 (让 = 二 en(- 习 (3.17) 


其 中 总 是 一 个 时 间 常 量 ， 它 是 神经 元 7 的 一 个 特征 参数 。 式 (13.17) 中 的 时 间 函 数 坟 ( 划 被 看 
作 是 简单 电路 的 冲击 响应 ， 该 电路 由 电阻 只 和 电容 C 组 成 ， 从 一 个 电源 得 到 馈 给 ; 即 

= RiCG (13.18) 
此 ， 我 们 使 用 式 (13.16) 和 式 (13.17) 构 造 图 13.16 中 模型 的 公式 。 使 用 物理 术语 ， 突 
般 权 值 w ,wp ，… ,wm 为 电导 率 ( 即 电阻 的 倒数 )， 而 各 自 的 输入 za (5 ,za( 二 ,…，xm ( 则 由 
电位 ( 即 电压 ) 表 示 。 求 和 连接 由 低 输入 电阻 、 单 位 电流 增益 和 高 输出 电 限 来 表征 ; 即 它 就 是 
作为 对 输入 电流 进行 求 和 的 节点 。 因 此 馈 人 电阻 - 电容 (Resistance-Capacilance,RC ) 电 路 的 总 
电流 为 
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辫 22 (0 二 也 
其 中 第 个 ( 求 和 ) 项 是 由 于 刺激 zi () ,如 (1 ,…。 xs ( 吕 分 别 作用 于 突 航 权 值 (电导 率 ) un ， 
zaom ， 而 第 二 个 项 是 表示 外 部 作用 偏 置 鼎 的 电源 二。 

在 神经 网 络 文献 中 ， 图 13- 16 中 的 神经 元 模型 通常 称 为 加 性 模型 (additive model) 。 这 个 
模型 可 以 视 为 生物 树 突 神经 元 的 分 布 式 传输 线 模型 的 块 状 电路 近似 (Rall, 1989 )。 由 于 生物 
帘 触 本 身 就 是 一 个 低 通 滤波 器 的 良好 近似 , 这 也 可 以 说 明 图 13-16 中 的 RC 电路 低 通 特性 的 
合理 性 。 
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图 83-16 神经 元 的 加 性 模型 
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13.8 分 布 式 时 滞 前 馈 网 络 


通用 短视 映射 算法 提供 集中 式 TLRN 的 数学 基础 ,但 它 仅 限于 平移 不 变 喘 射 。 这 个 局 限 
性 暗示 集中 式 TLEN 只 适用 于 平稳 (即时 间 不 变 ) 的 环境 。 我 们 便 用 分 布 式 时 滞 (distributed time 
lagged) 前 馈 网 络 ， 可 以 克服 这 个 局 限 ， 分 布 式 的 意义 在 于 隐 含 的 时 间 影响 分 布 于 整个 网 络 。 
这 样 一 个 网 络 的 结构 基于 图 13- 14 的 多 个 输入 神经 元 滤波 器 作为 神经 元 的 时 空 模型 。 

令 几 全 ) 表 示 与 FIR 滤波 器 第 【个 抽 头 禁 连 接 的 突 触 权 值 ， 该 FIR 滤波 器 异 拟 连接 神经 
元 守 的 输出 到 神经 元 7 的 突 触 。 下 标 上 从 0 到 P， 其 中 疡 是 FIR 的 阶 。 依 据 这 个 模型 ， 出 现 
在 第 了 个 神经 元 的 第 ; 个 突 触 输出 的 信号 吕 (a) 由 考 积 和 


sn = uCDz(n-D (13.19) 


给 出 ， 其 中 于 表 示 离 散 时 间 。 我 们 可 以 对 王 突 角 i 分 曾 引 入 下 列 状态 加 量 和 权 和 值 向 其 的 定 
义 ， 以 年 阵 的 形式 重 写 式 (13.19) 如 下 : 




















刺 (R) = [三 (2 (下 -1 和 (一 (13.20) 
= [人 (0) ap(1) va 人 (DD)]7 《13.21) 

这 样 我 们 可 以 把 标量 信号 %{z) 作 为 向 量 ws(n) 和 x (nm) 的 内 积 ， 邵 
an) = 本 员 (mn) (13.22) 


对 于 输入 疝 量 和 (mm)，E= 1,2，……aao, 式 (13.22) 定 义 图 13-14 异型 中 的 神经 元 7 的 第 ;个 突 
触 的 输出 响应 w (=)。 向 量 (m) 被 称 为 一 种 “状态 "、 因 为 它 表 示 在 时 刻 ”第 ; 个 突 触 的 条 
件 。 因 此 ， 对 这 个 模型 描绘 的 me 个 连接 的 全 部 贡献 求 和 ( 即 对 下 标 主 求 和 )， 我 们 可 以 得 到 
神经 元 的 输出 %(z)， 表 示 为 














四 加 
区 (= ww(n TD= WwWTx(n) + 矶 (13.23) 
Cn) = 中 5Cn)) (13.24) 





其 中 wm) 是 神经 元 的 诱导 局 部 域 ， 注 是 外 部 作用 的 偏 置 ，9(') 是 神经 元 的 非 线性 激活 函 
数 。 假 设 网 络 中 所 有 的 神经 元 都 采用 相同 的 人 线性 的 形式 。 注 意 如 果 权 值 向 量 Wi 和 状态 向 
量 关 (ez) 分 别 由 相应 的 标量 凡 和 % 代替 ， 并 且 内 积 由 普通 的 乘法 运算 代替 ， 那 么 式 (13.23) 
和 式 (13.24) 中 描述 的 动态 模型 就 会 化 简 为 第 4 章 中 描述 的 普通 多 层 感知 器 模型 


13.9 时 序 反 向 传播 算法 


为 了 训练 分 布 式 TTFN 网 络 ， 我 们 需要 - -个 鉴 营 学 习 算法 ， 其 中 比较 输出 层 每 个 神经 元 
的 每 个 时 刻 的 实际 响应 与 相应 的 期 望 (目标 ) 响 应 。 假 设 神经 元 7 位 于 输出 层 ， 其 实际 啊 应 是 
3(Cna)， 而 这 个 神经 元 的 期 望 明 应 为 @Cna)， 它 们 都 在 时 刻 = 测量。 我 们 可 以 定义 该 网 络 的 
平方 误差 和 的 肯 时 值 





&(m) = 了 叫 en) (13.25》 


其 中 下 标 了 仅 指 输出 层 的 神经 元 ， 谭 e(m) 是 误差 信号 ， 定 义 为 
ea) = 田 (n) 一 和 思 (z) {13.26) 
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对 所 有 时 间 计 算 外 (=) 的 值 然 后 求 和 ， 
昌 = 和 (m) 《43.27) 


目标 是 最 小 化 这 样 定义 的 代价 台数 。 为 了 计算 最 优 权 值 向 量 估计 值 ， 记 住 达到 这 个 目标 的 算 
法 是 基于 最 速 下 降 方法 的 通 近 。 

处 理 这 个 问题 的 一 个 明显 方法 尾 将 式 (13.27) 中 的 代价 尊 数 对 W, 进 行 微分 ， 得 到 

3 -= 也 2 《13.28) 

为 了 利用 瞬时 梯度 方法 进一步 处 理 ， 我 们 按时 间 展 开 网 络 。 这 里 的 策略 首先 足 通过 将 其 扩展 
成 等 价 的 但 更 大 的 “静态 "网络 ， 消 除 所 有 的 延迟 ， 接 着 应 用 标准 反 向 传播 算法 计算 瞬时 误差 
梯度 。 不 幸 的 是 ， 这 个 方法 受到 下 面 几 个 负面 性 质 所 阻碍 : 

，。 状态 的 前 向 传播 与 计算 瞬时 误差 梯度 所 需 项 的 反 向 传播 之 间 拓 去 对 称 意义 。 

。 传播 误差 项 缺 少 -一个 好 的 递归 公式 。 

， 需要 全 局 纪录 以 跟踪 哪些 静态 权 值 ， 它 们 实际 上 在 展开 分 布 式 TLFN 获得 等 价 的 网 

络 中 是 相同 的 。 

尽 符 用 瞬时 樟 度 估计 是 发 展 反 向 传播 算法 的 时 间 形式 的 明显 方法 ， 从 实用 的 观点 来 看 这 
种 方法 不 理想 。 

为 克服 上 述 瞬时 梯度 方法 的 问题 ， 我 们 提 下 述 处 理 (Wan,1990,1994 )。 首 先 ， 认 识 到 把 
总 误差 梯度 展开 成 如 式 (13.28) 所 示 的 瞬时 误差 梯度 的 和 并 水 是 惟一 的 。 特 别 ， 可 以 考虑 另 
一 个 表示 代价 函数 对 权 值 向 量 ws (n) 的 偏 导数 的 方法 ， 表 示 为 











口 昌 ou Q 包 30() 
5 = 5 《13.29) 








其 中 时 间 下 标 = 仅 作用 于 (nm). 我们 可 以 将 偏 导数 98。u7au (解释 为 在 时 刻 n 由 于 神经 
元 7 的 诱导 局 部 域 w 的 一 个 变化 而 引起 的 代价 函数 的 一 个 变化 。 然 而 重要 的 是 注意 
gm ou(n) 3 罗 (m) 
5(ny WwW 
只 有 当 对 所 有 的 = 求 和 ， 式 (13.28) 和 (13.29) 中 的 等 式 才 成 立 。 
给 定式 (13,29) 的 展开 ， 我 们 现在 可 以 使 用 权 值 空 间 的 梯度 下 降 的 思想 。 特 别 ， 假 设 使 
肯 由 
































1D (1 (13.30) 
表示 的 递归 形式 的 更 新 抽 头 - 权 值 向 量 w (ps)， 其 中 是 学 习 率 参数 。 从 式 (13.23) 的 定义 
看 ， 我 们 可 发 现任 何 神经 元 )， 其 诱导 局 部 域 ，(n) 对 权 值 向 量 w, (的 仿 导 数 由 

站 全 本 03.30) 


给 定 ， 其 中 % (rm) 是 应 用 于 神经 元 / 突 触 ; 的 输入 向 量 。 此 外 ， 可 以 定义 神经 元 7 的 局 部 梯 
度 为 





oa (13.32)》 
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因此 ， 我 们 可 以 用 一 个 狼 悉 的 形式 来 重 写 式 (13.30) 
Wi(n+l)= wz)+ 只 (Cn)x(Pm) (13.33) 
正如 第 4 章 中 的 标准 反 向 转播 等 法 所 措 述 的 那 梓 ， 局 部 梯度 的 显 式 形式 依 各 于 神经 元 7 位 于 
条 出 层 还 是 隐 蔬 层 。 这 丙种 情况 分 别 在 下 击 讨 论 。 
情形 1 神经 元 位于 输出 导 
对 于 答 出 层 而 言 ， 我 们 有 有 
0 = 基 便 =- 玫 全 -oo0g(s(o) 013 39) 


其 中 e(n) 是 神经 元 7 得 人 和信 而 4 (,) 是 激活 示 玫 9( ,) 对 其 变 最 的 导 将 。 
傅 形 3 神经 元 / 是 隐藏 层 神经 
当 入 经 元 位 于 入 基层 时 ”我们 定义 sf 为 出神 经 元 以 且 向 方式 负 给 其 输入 的 神经 元 和 
合 。 令 wm 表示 属于 集合 中 的 神经 元 的 诸 导 局 部 域 。 我 们 可 以 写成 
at =-- 基 障 - -习习 入 基 册 《43.55) 
中 我 们 已 经 使 用 下 标 上 来 代 蔡 ” 的 位 置 以 示 特 别 注意 之 处 。 在 式 (13.35) 里 (用 下 标 r 代 共 
) 使 用 式 (13.32) 中 的 定义 ， 可 以 得 到 


3 人 (人 gw( 自 9 
8(n) = 马 忆 8( 介 光志 = 习习 5 3 仙 于 申 (4.36) 
中 Y(a) 是 神经 元 7 的 条 出 我 们 知道 偏 导数 3y(n)/ao(n) 等 于 gf (w(n))， 包 括 位 于 集 


合 & 之 外 的 神经 元 /7 这 一 点 亦 成 立 。 所 以 可 以 将 这 一 项 提 到 双重 求 和 式 的 外 面 ， 重 写 式 
《13.36 ) 为 
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(9 天 于 (有 强 交 413.37) 


像 以 前 定义 的 那样 ，w(#) 表 示 由 神经 元 了 的 输出 俱 给 的 神经 元 r 的 诱导 局 部 域 。 因 此 ,为 
使 式 (13.19) 和 (13.23) 的 含义 适 于 目前 的 情形 ， 可 以 将 w( 绢 表示 成 























妃 ( 丰 ) = 入 妆 w (0w(a -站 (13.38) 
在 式 (13.38) 中 已 经 包括 神经 元 + 的 偏 置 6，， 相当 于 了 = 0 时 的 项 ， 定 义 为 
an( 人 = 六 和 ya-DD=1 对 所 有 的 [和 nm 《13.39) 


指标 严 定 义 式 (13.38) 内 部 和 的 上 限 ， 它 是 神经 元 "， 以 及 当前 讨论 的 层 中 的 所 有 其 他 神经 
元 的 每 个 突 触 滤波 器 的 阶 。 指 标 mo 定义 在 式 (13.38) 中 外 部 和 的 上 跟 ， 是 属于 神经 元 r 的 所 
有 主 突 触 的 数目 。 认 识 关于 /的 卷 积 和 是 可 交换 的 。 我 们 可 重 写 式 (13.38) 为 等 价 的 形式 














0 了 
ww( 有 = > (Duan(n -站 (13.40) 
上 起 对 ” 进行 求 导 ， 得 到 
ar( 到) iv (一 站， 于 过 丰 二 下 + 户 
5 = | 0 其 他 {13.41》 


按照 式 (13.41)， 式 (13.37) 中 的 篇 导数 3aw (5 六 (na)， 对 于 在 范围 wsisn+p 之 外 的 
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值 ， 其 值 是 0。 对 隐藏 层 中 的 神经 元 7 来 说 ,在 式 (13.37) 中 使 用 式 (13.41) ， 得 到 
=) 于 贡生 人 站) 王 sort 
GE 二 上 = 兽 


FE 列 [ = 





《13-42》 
定义 一 个 新 的 (p + 1) x 工 维 向 量 
Am) = [Sn)3(+1l) Set+D)]7 《13.43) 
早 些 时 候 我 们 定义 了 式 (13.21) 中 的 权 值 向 量 wx*。 通 过 使 用 矩阵 记号 可 以 把 式 (13.42) 重 写成 
紧 凌 形式 





aa) = W(o(n) 对 Ar(n)wi 《13.44) 
GE 加 


其 中 4 (mw 是 向 量 A(n) 和 wy 的 内 积 ， 这 两 个 向 量 都 是 (p + 1) 维 的 。 式 (13.44) 完 成 在 隐 
藏 层 中 对 于 神经 元 7 的 8(n) 的 计算 。 

我 们 现在 可 以 总 结 权 值 更 新 方程 为 下 述 时 序 反 向 传播 (temporal back propagation) 关系 
〔(Wan,1990,1994) : 








w+l) = we(n)+ 代 (ax(a) (13.45) 
ao)9(w(n))， .7 为 输出 层 
5) = ]y(a(m) 于 Ar(n)wj， /为 隐藏 导 《13.46) 
rE 训 


它 可 以 推广 为 任意 数量 的 隐藏 层 单元 。 立 即 可 以 看 出 这 些 关系 式 表示 标准 的 误差 反 向 传播 算 
法 的 向 量 推广 。 如 果 我 们 用 输入 向 量 x (na) 、 权 值 向 量 wy 以 及 局 部 梯度 向 量 A, 的 标量 形式 
来 取代 它们 ,， 那 就 变 成 了 如 第 4 章 导出 的 标准 反 向 传播 算法 。 

为 了 计算 位 于 隐藏 层 的 神经 元 7 的 (=)， 根 据 式 (13.44) ， 我 们 通过 那些 兴奋 是 从 神经 
元 7 导出 的 突 触 滤波 器 从 后 一 层 反 向 传播 各 个 83。 这 个 反 向 传播 机 制 如 财 13-17 所 示 。 局 部 
梯度 8 (na) 不 是 简单 的 由 加 权 和 得 来 ， 而 是 通过 各 主 突 触 反 向 滤波 形成 的 。 特 别 地 ， 对 新 的 
答 人 集 含 和 期 望 响 应 向 量 ， 前 向 滤波 器 递增 - :个 时 间 步 ， 反 向 让 波 器 也 一 样 。 


四 
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局 全 2 
在 集合 双 


5 四 本 工 ， 中 的 神经 
、__ 了 并 下 


全 





图 13-i9 ”通过 分 布 式 TELRFN 的 局 部 梯度 的 反 向 传播 
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我 们 现在 能 够 看 出 这 里 使 用 时 序 反 向 传播 算法 的 -一些 实际 的 好 处 : 
1. 状态 的 前 向 传播 和 误差 项 的 反 向 传播 之 间 保 持 对 称 性 因而 某 种 意义 上 并 行 分 布 式 


处 理 是 可 以 维持 的 。 
2. 每 个 惟 ~- 的 突 触 涉 波 器 权 值 在 计算 83 时 只 州 一 次 。 在 瞬时 梯度 方法 中 遇 到 的 项 不 在 
在 元 余 。 


在 推导 式 (13.45) 和 式 (13.46) 描 述 的 时 序 反 向 传播 算法 省 时 ， 假 设 突 触 滤 波 器 权 值 对 所 
有 的 梯度 计算 部 刁 定 的 。 在 实际 适应 过 程 中 这 明显 不 是 一 个 合法 的 假设 。 相 应 地 ， 时 序 反 
向 传播 算法 和 使 用 瞬时 梯度 方法 所 得 的 时 序 形式 之 间 将 产生 性 能 上 的 差异 。 然 而 ， 这 些 差 异 
只 居 一 个 次 要 的 属性 。 对 一 个 较 小 的 学 习 率 参数 中 ， 这 两 种 算法 中 的 学 习 特 社 的 差异 在 实际 
应 用 中 是 可 以 忽略 的 。 


因果 性 约束 


细心 检查 式 (13.42) 可 以 发 现 8(n) 的 计算 证 非 因果 性 的 ， 因 为 它 需要 各 个 8 利 未 来 什 
的 知识 。 为 了 使 这 个 计算 为 因果 性 的 ， 首 先 注意 用 于 适应 调整 的 精确 时 间 参 照 是 无 关 紧 要 
的 。 并 且 ， 网 络 中 使 用 的 突 触 结构 部 是 FIR 滤波 器 。 因 此 ， 因 果 性 要 求 使 用 附加 的 缓冲 来 暂 
存 网 络 的 内 部 状态 。 这 样 接 下 来 我 们 要 求 所 有 忆 值 的 改变 都 基于 误差 信号 的 当前 值 和 过 去 
值 。 由 此 可 以 立即 设置 输出 层 神经 元 7 的 误差 为 8g( mn) ， 接 着 改变 那 一 层 的 突 甬 滤波 器 权 值 。 
对 前 一 层 ( 即 从 输出 层 反 向 的 一 个 隐藏 层 ) ， 因 有 果 性 约束 瞳 示 这 一 层 神经 元 / 的 局 部 梯度 














Sa =won-p)) AT -pw (13.47) 

rr 吕 

的 计算 仅仅 依赖 于 向 量 A, 的 当前 值 和 过 去 值 ; 那 就 是 ， 
An-p)=[Sn-p)3Ca+1-p) Sn)lT 《13.48) 


式 (13,47) 是 由 式 (13.46) 从 第 二 行 中 将 n” 用 nm - P 代替 得 到 的 ， 其 中 5 是 每 个 灾 触 MTR 滤波 
器 的 阶 。 像 以 前 指出 的 那 樟 ， 状态 x (na - 门 必 须 存储 起 来 使 得 我 们 可 以 计算 8 (nan - p)x 
(~) 的 积 ， 这 是 为 了 改变 连接 最 后 -个 隐藏 层 的 神经 元 5 和 它 前 一 层 的 神经 元 ; 的 权 值 向 
和 量 。 对 一 个 含 多 个 隐藏 层 的 网 络 来 说 ， 通 过 将 时 间 平 移 两 倍 那么 长 ， 可 以 对 更 前 - - 层 ( 即 输 
出 层 前 面 的 两 个 层 ) 继 续 这 里 描述 的 操作 。 操 作 以 这 种 方式 继续 直到 包括 网 络 的 所 有 计算 层 。 
我 们 可 以 提出 时 序 友 向 传播 算法 的 因果 形式 ， 如 表 13- 1 中 的 小 结 .. 
表 13-+ 时 序 反 向 传播 算法 小 结 
1 向 前 逐 层 传播 输入 信号。 确定 输出 层 神经 元 了 的 误 益 信号 = (nz)， 这 从 期 望 响应 中 减 掉 实 际 答 出 得 到 。 问 时 记录 网 
络 中 每 个 罕 触 的 状态 向 量 。 
2. 对 和 输出 层 神经 元 7 计算 : 








Sa) = (9 人 
WarD = 用 ( 克 + 防 (mtO) 
其 中 zi) 与 输出 宏 神 经 元 相连 的 隐藏 层 神 经 元 的 突 触 ;的 状态 - 
. 对 隐藏 层 中 的 神经 元 /， 计 简 


Sn 一 印 ) = 凶 人 oa 一 印 ) YArn -有 )wo 
更 


Wrfn+1 = w+ 胞 人 -加 人) 
其 中 p 是 每 个 突 触 PTR 沥 波 器 的 阶 ， 同 时 指标 ! 标识 所 讨论 的 隐藏 拔 。 特 别 ， 对 有 多 个 隐藏 层 的 网 络 来 说 ，z = 1 
与 紧 千 输出 层 的 第 一 个 隐 号 层 相对 应 ，! = 2 与 紧 竺 输出 层 的 两 个 隐藏 层 相对 应 ， 恢 次 类 推 ， 
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尽管 这 个 算法 在 审美 观点 上 不 如 式 (13.45) 和 (13.46) 中 描述 的 非 因果 形式 好 ， 两 种 算法 
形式 的 基本 不 同 只 是 在 指标 上 的 一 些 改 变 嗣 了 。 

总 而 音 之 ， 我 们 可 以 得 到 下 列 结论 : 
各 个 8 是 通过 网 络 的 各 居 连 续 肥 向 传播 的 ， 并 月 不 增加 延迟 。 这 种 传播 强迫 8 的 内 
部 值 随 着 时 间 平 移 。 
为 了 时 间 平 移 正确 ， 状 态 { 即 忒 (m) 的 值 ) 向 量 被 保存 起 来， 用 于 形成 修改 权 值 所 需 
要 的 恰当 乘积 项 。 换 句 话说， 只 有 状态 向 量 需 要 增加 存储 延迟 ， 而 执行 dela 的 反 
向 传播 是 不 需要 延迟 的 
各 个 和 的 反 向 传播 与 状态 的 前 向 传播 保持 对 称 。 

。 和 瞬时 悦 度 方法 一 样 ， 计 算 的 阶 对 网 络 突 触 权 值 的 数 月 是 线性 的 。 

分 布 式 TLFN 比 在 ]3.4 节 讨论 的 集中 式 TLFN 更 复杂 。 此 外 ， 用 来 训练 分 布 式 TEN 的 
时 序 反 侣 传播 算法 计算 旺 比 适宜 二 训练 集中 式 TLFN 的 标准 到 向 传播 算法 的 计算 量 更 大 。 在 
最 后 的 分 析 中 ， 使 用 这 丙种 方法 中 的 哪个， 取决 于 需要 解决 的 时 序 处 理 任务 的 环境 是 平稳 
的 还 是 非 平稳 的 ”。 


13.10 小 结 和 讨论 


对 时 序 处 理 的 需求 出 现在 包括 以 下 方面 的 大 量 应 用 中 : 
时 间 序 列 的 预测 和 建 横 ( Box,Jenkins,1976; Haykin,1996)。 


























”。 梁 声 消除 ， 其 中 需要 一 个 主 传感器 (提供 包含 噪音 的 期 望 信号 ) 以 及 -个 参照 传感器 
《提供 只 音信 叶 的 一 个 相关 形式 ) 来 消除 噪声 的 影响 (Widrow and Steams,1985; Haykin， 
1996)。 


未 知 通信 信道 的 自 适应 均衡 (Proakis,1989; Haykin,1996): 
自 适 应 控制 (Narendra andq Annaswamy,1989) 。 
系统 扒 识 (Liang 1987)。 

当 研 究 的 系统 或 者 是 其 固有 的 物理 机 制 满足 线性 条 件 时 ， 我 们 已 经 有 一 些 很 完善 的 理论 
来 解决 这 些 问题 ; 可 以 参考 上 面 提 到 的 书 。 然 而 ， 如 果 一 个 系统 或 者 物理 机 制 是 非 线 性 的 ， 
我 们 面临 的 问题 将 更 加 困难 。 在 这 些 情况 下 ， 神 经 网 络 有 潜力 提供 行 得 通 的 解 ， 从 而 在 它们 
的 应 用 中 产生 了 很 大 的 差异 - 

在 神经 网 络 的 环 景 下， 我 们 对 时 序 处 理 有 两 种 选择 方案 : 

。 时 沸 前 馈 网 络 。 

。 递归 网 络 。 

下 面 两 章 将 讨论 递归 网 络 。 这 一 章 我 们 描述 两 类 时 滞 前 锁 网 络 (TLFN): 集中 式 和 分 布 
式 TLFN。 在 一 个 集中 式 TLFN 中 ， 短 期 记忆 完全 位 于 静态 网 络 的 前 端 ， 可 直接 进行 设计 。 训 
练 集中 式 TLFN， 假 定 用 多 层 感 知 器 来 实现 萝 态 神经 网 络 , 则 可 以 用 慰 准 的 反 向 传播 算法 完 
成 。 由 Sanberg and XuK1997a, 1997b) 得 到 的 通用 短视 睐 射 定 理 ， 我 们 有 一 个 存在 定理 ， 通 过 
用 两 个 荔 能 块 ( 即 一 组 线性 凄 波 器 岂 和 一 个 静态 神经 网 络 ) 的 级 联 ， 提 供 逼 近 任 意 短视 映射 
〈 即 具有 -至 全 减 记忆 的 因果 映射) 的 数学 基础 。 这 样 一 个 结构 可 以 使 用 集中 式 TLFN 来 实 
更 ， 于 是 也 就 提供 了 这 个 定理 的 物理 实现 。 


























[ 框 ] 





另外 一 类 TIFN 是 分 布 式 TLFN， 依 束 于 使 用 神经 元 的 时 空 模型 ， 即 一 个 多 输入 神经 元 滤 【6 
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波 器 。 这 个 模型 使 用 有 限 冲 击 响应 (FIR) 汪 波 器 作为 突 触 滤波 器 。 这 样 ， 多 输入 神经 几 滤 波 
赁 借 在 单个 神经 元 周围 建立 的 时 空 信号 处 理 能 力 提供 一 个 强大 功能 志 。 为 了 训练 它 ， 我 们 
可 以 使 用 第 3 章 撒 述 的 最 小 二 乘 (leastrmearrsquare, LMS) 算 法 。 然 而 ， 要 训练 一 个 分 布 式 


TLFN 
TLFN 

















， 我 们 需要 一 个 复杂 的 学 习 算 活 ， 诸 如 13.9 节 中 描述 的 时 序 反 向 传播 算法 。 分 布 式 


的 突出 特征 是 时 间 的 隐 式 去 示 分 布 于 整个 网 络 中 ， 因 此 具有 处 理 非 平稳 (即时 变 ) 环 境 








的 能 方 。 相 反 ， 在 集中 式 TLFN 中 ， 按 定义 ， 时 间 的 隐 式 表达 集中 于 网 络 的 前 端 ， 这 限制 它 
实际 应 用 于 平稳 (即时 间 不 变 ) 环 境 。 
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关于 时 间 在 神经 处 理 中 的 作用 的 短文 ， 贿 见 PRlman(1990) 的 标题 为 “发 现时 间 中 的 结构 ” 
的 经 典 论文 。 ~ 

在 Hopfield\1995) 中 描述 人 在 神经 处 理 中 时 间 的 是 式 表示 的 一 种 方法 。 特 别 ， 对 进行 整体 
振荡 的 活动 模式 使 用 动作 电位 的 定时 表示 异 拟 信息 ， 并 引用 这 方面 神经 生物 学 的 证 据 ; 
动作 电位 {action potentials) 在 第 1 章 描述 。 

关于 短期 记忆 结构 和 它们 在 时 序 处 理 的 作用 ， 参 看 Moxer(1994)。 

对 用 于 语音 识别 的 TDNN 和 HMM 的 混合 方法 的 讨论 ， 可 参看 Bouqarjl and Morgan 
(1994) ，Kaiagiri and McDermott (1996) 和 Bengio( 1996)。 

一 些 TDNN - HMM 的 混合 结合 使 用 TDNN 框架 编码 器 ( 即 映 射 “听觉 特征 检测 器 "到 一 个 
“音素 但 ") 和 HMM 词 / 名 的 路 径 发 现 器 ( 即 肌 射 "音素 符号 "为 “ 词 /各 的 类 ”) ， 其 中 编码 
器 和 路 径 发 现 器 都 是 单 开设 计 的 。 在 一 些 高 级 的 TDNN - HMNM 混合 中 使 用 整个 系统 的 
平方 误差 损失 画 数 使 得 和 词 /名 的 误差 计数 相关 的 损失 能 够 被 最 小 化 。 这 后 一 种 格式 的 
例子 为 在 Haffner et al.(1991) 和 Haffner( 1994) 中 描述 的 多 状态 TDNN。 分 开设 计 模块 的 
简单 混合 经 常 导 致 设计 的 训 红 性 能 和 测试 性 能 的 不 匹配 。 在 这 方面 多 状态 TDNN 表现 
更 好 。 
在 根本 意义 上 递归 网 络 (在 第 15 章 讨论 ) 比 类 似 TDNN 的 “复制 "网 络 对 于 语音 信和 叶 的 时 
序 结构 建 模具 有 更 大 的 能 力 。 但 图 ， 由 于 考虑 到 语音 信号 的 非 平稳 性 和 非 线性 性 ， 即 
使 是 递归 网 络 ， 它 们 自己 对 于 精确 的 语音 识别 也 许 并 不 是 足够 的 。 

关于 通用 短视 映射 定理 的 由 来 ， 参 看 Sandberg(1991)。 

关于 时 序 反 向 传播 算法 的 另 一 个 图 解 推 导 ， 参 者 Wan and Beaufays(1996)。 

在 Wan(1994) 中 ， 利 用 时 序 反 向 传播 算法 对 NB, 激光 的 具有 混沌 震动 的 非 平 稳 时 间 序 
列 进行 预测 。 这 个 特殊 的 时 间 序 列 是 1992 年 在 美国 Santa Fe 研究 所 举行 的 时 间 序列 竞赛 
的 一 部 分 。 对 这 个 时 序 处 理 任务 ,包括 标准 的 递归 和 前 馈 神 经 网 络 以 及 许多 传统 的 线性 
技术 在 内 的 各 种 各 样 的 解 中 ，Wan 的 解 赢得 了 竞赛 (Wan,1994)。 灌 沌 在 第 14 章 讨论 。 






























































集中 式 时 滞 前 饥 网 络 (TLFN) 

43.1 对 用 于 非 线 件 动态 过 程 建 模 的 集中 式 TLFN 的 主要 特性 进行 概括 。 

13.2 在 图 13-10 中 描绘 的 集中 式 TILTN 使 用 抽 头 延迟 线 记忆 来 实现 短期 记忆 。 那 么 在 
集中 式 TLFN 中 使 用 Gamma 记忆 来 实现 短期 记忆 的 优 和 缺点 是 什么 ? 
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13-3 在 第 2 章 中 ， 我 们 定性 地 描述 实现 非 线性 自 适应 滤波 的 动态 方法 。 这 个 方法 涉及 
到 一 种 静态 神经 网 络 ， 其 刺激 尾 通过 应 用 滑动 窗口 来 镇 给 输 和 数据。 这 个 窗 呈 伍 着 每 个 新 的 
数据 样本 的 到 来 亨 发 生 移动 ， 窗 口中 的 旧 样 汪 滑 出 ， 给 新 的 数据 样本 以 空间 。 试 讨论 一 个 集 
中 式 TLFN 刘 何 实现 这 种 连续 学 习 的 形式 。 





























神经 元 的 时 空 模型 

13.4 考虑 一 个 神经 元 泪 波 器 ， 其 诱导 局 部 域 0 人。 假设 这 个 等 式 的 
时 间 阴 数 包 ( 纪 由 平移 单元 冲击 矶 (6) = 8 -已 ) 来 代替 ， 其 中 心 个 固定 延迟 。 描 述 这 种 
修改 对 神经 元 滤波 器 带 来 的 变化 。 

13.5 使 用 LMS 算法 ， 对 图 13-9 中 的 多 输入 昼 经 元 滤波 器 给 出 学 习 算法 的 公式 。 
册 序 反 向 传播 


13.6 图 13-18 描述 用 高 斯 形式 的 时 间 窗 口 作 为 时 序 处 理 的 方法 (Bodenhausen sand 
Waibel，1991)。 与 神经 元 7 的 帘 甬 ; 相 联 系 的 时 间 窗 口 ， 记 为 80nm ,ai )， 其 中 忌 和 天 分 别 
表示 时 延 和 窗 上 LI 的 宽度 ， 表 示 为 





6(nsuio) =- 二 -oo(- 盐 o -ss 咯 
神经 万 了 的 输出 模型 为 


区 
Xu 人 Cn) 
其 中 (是 输入 <( 忆 和 时 间 窗 口 (nso ) 的 卷 积 。 属 于 神经 元/ 的 突 需 ; 的 权 值 和 
时 延 n 都 使 用 监督 方式 学 习 。 





输入 


交合 


0 





一 人 时 间 " 


图 13-18 

这 个 学 习 可 以 通过 标准 的 反问 传播 算法 来 实现 。 试 通过 推导 ww ,ry ,os 的 更 新 公式 演示 这 
个 学 习 过 程 。 

13.7 在 13.9 节 提供 关于 时 序 反 向 传播 算法 的 材料 中 处 理 等 长 的 帘 触 FIR 滤波 器 。 你 
如 何 处 理 不 等 长 的 突 触 FIR 滤波 器 ? 

13.8 讨论 时 序 反 向 传播 算法 如 何在 单 步 预 测 的 分 布 式 TEN 的 训练 中 使 用 。 

13.9 约束 的 { 因果 的 ) 和 刘 约 束 的 ( 非 因果 的 ) 时 序 反 向 传播 算法 形式 上 的 差异 类 似 于 标 
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准 的 最 小 二 乘 (TMS) 算 法 和 延迟 LMS 算法 的 差异 ; LMS 算法 在 第 3 章 讨论 .扩充 这 个 类 比 。 
计算 机 实验 

13.10 在 这 个 题目 里 我 们 用 标准 的 BP 算法 来 解决 出 难 的 非 线性 顶 测 问题 ， 比 较 它 与 
IMS 算法 的 性 能 。 时 间 序 列 由 离散 Volterra 模型 建立 ， 其 形式 为 
和 (7) = ga 人 一 了 ) 十 3 8 一 门 + 和 
其 中 & ,8y :是 Voltena 系数 。a(n) 是 独立 的 Ganss 分 布 白 曲 声 序列 的 抽样 。*( =) 是 Voltemma 
模型 的 输出 。 第 一 个 求 和 项 是 我 们 熟悉 的 少 动 平均 (MA) 时 间 序列 模型 ， 剩 余 的 求 和 项 是 更 
高 阶 的 非 线性 的 部 分 。 一 般 地 ， 对 Volterra 系数 的 估计 通常 认为 是 困难 的 ， 主 要 是 因为 它们 
和 数据 的 非 线性 关系 。 

在 这 个 习题 中 ， 我 们 考虑 一 个 简单 的 例子 

xz(m) = (n+pBon-l)on -2) 

财 间 序 列 是 零 均 值 的 ， 不 相关 的 ， 从 而 有 :个 白 噪声 的 谱 。 然 而 ， 时 间 序 列 的 样本 并 不 是 互 
相 独 立 的 ， 模 型 输出 的 方 益 由 从 =+ 民 o# 给 出 ,其 中 避 是 白 噪 声 的 方差 。 

(a) 构 造 一 个 多 层 感 知 器 ， 有 6 个 输入 节点 ， 隐 藏 层 含 有 16 个 神经 元 ， 只 有 一 个 输出 神 
经 丈 。 使 用 抽 头 延 时 线 记 人 忆 债 给 网 络 的 输 人 层 。 耻 藏 层 神经 元 使 用 sigmoid 激活 函数 ， 限 制 
在 区 间 :0,1] 区 间 内 ， 而 输出 神经 元 充当 一 个 线性 的 组 合 器 。 网 络 使 用 标准 反 疝 传播 算法 进 
























































行 训练 ， 有 关 人 参数 如 下 : 
学 习 率 参数 ， 1 = 0.001 
动量 常数 a=0.6 


处 理 的 样本 总 数 100 000 
每 个 回合 的 样本 数目 1000 
总 的 回合 数目 2 500 
白 噪声 方差 ex 为 1。 因 此 ,用 = 0.5， 我 们 求 出 预测 右 的 输出 方 益 为 呈 = 1.2S。 
计算 非 线性 预测 器 的 学 习 曲 线 ， 将 预测 器 输出 xz(n) 的 方差 绘制 成 训练 样本 的 凹 合 数 的 
数 ， 一 直 画 到 2 500 个 回合 。 为 了 准备 进行 训练 的 每 个 回合 ， 探 讨 下 属 两 种 方式 : 
(维持 训练 样本 的 时 序 ， 从 一 个 回合 到 下 一 个 回合 与 它 产生 的 时 序 一 样 。 
〈 芝 训练 样 本 的 顺序 从 一 个 状态 (模式 ) 到 另 一 个 状态 是 随机 产生 的 。 
同时 ， 对 1 000 个 样本 的 确认 集 使 用 交叉 确认 (在 第 4 章 中 描述 )， 览 测 预测 器 的 学 习 行 











为 。 





〈b) 重 复试 验 ， 使 用 LMS 算法 对 6 个 样本 的 输入 执行 线性 预测 。 算 法 的 学 习 率 参 数 设置 
为 =10-。 

(e) 重 复 整 个 实验 ， 用 B= 1，o =2; 接着 再 重复 , 用 B=2,， 只 =5。 

每 个 实验 的 结果 应 该 揭示 反 向 传播 算法 和 LMS 算法 最 初 基 本 遵循 相似 的 途径 ， 然 而 反 
馈 传 播 算法 继续 改进 ， 最 终 产生 -… 个 接近 预定 值 灾 的 预测 方差。 





























第 14 章 神经 动力 学 


14.1 简介 


在 前 一 章 关 于 时 间 处 理 中 ， 我 们 研究 了 短 时 记忆 结构 和 和 直 记 忆 结 构 刺 激 静 态 神经 网 络 
(如 多 层 感知 机 ) ， 以 及 如 何 将 它 作为 劲 态 映 射 器 运行 。 另 一 个 可 用 于 把 时 间 以 隐 含 的 方式 嵌 
人 神经 网 络 的 运行 之 中 的 重要 途径 是 通过 使 用 反馈 。 把 反馈 应 用 于 神经 网 络 有 两 种 基本 途 
径 : 网 络 中 单一 神经 元 层次 上 的 局 部 反馈 。 和 包含 整个 网 络 的 全 局 反馈 。 局 部 反馈 处 理 起 来 
是 相对 简单 的 ， 但 全 局 反馈 有 更 深 的 含义 。 在 关于 神经 网 络 的 文献 中 ， 带 有 一 个 或 者 更 多 反 
馈 同 路 的 神经 网 络 被 称 为 递归 网 络 。 人 在 本 章 和 下 - 章 中 ,我 们 将 注意 力 集中 在 使 用 全 局 反馈 
的 递归 网 络 。 

反馈 就 像 一 柄 双 刃 剑 ， 因 为 如 果 你 不 能 恰当 地 使 用 它 ， 那 么 它 就 会 产生 负面 效果 。 特 
别 ， 反 馈 的 应 用 能 导致 本 来 是 稳定 的 系统 变 成 不 稳定 的 。 在 这 一 章 中 ， 我 们 的 主要 兴趣 在 于 
递归 网 络 的 稳定 性 。 递 归 网 络 其 他 方面 的 问题 我 们 将 在 下 一 章 中 考虑 。 

被 视 为 非 线性 动力 系统 并 特 细 强 调 稳定 性 问题 的 神经 网 络 的 主题 被 称 为 神经 动力 学 
(neurodynamics)( Hirsch, 1989) 。 非 线性 动 广 系统 的 稳定 性 (或 不 稳定 性 ?的 一 个 重要 特征 就 在 
于 它 是 整个 系统 的 特性 。 作 为 一 个 推论 ， 稳 定性 的 存在 总 是 意味 着 在 系统 的 各 个 独立 部 分 之 
间 某 种 形式 的 协调 (Ashby,1960) 。 似 乎 对 神经 动力 学 的 研究 开始 于 1938 年 Nichoias Rashevsky 
的 工作 之 中 ， 那 时 将 动力 学 应 用 于 生物 学 领域 第 一 次 浮现 在 他 充满 幻想 的 头脑 中 。 

非 线 性 动态 系统 的 稳定 性 是 一 个 处 理 起 来 很 术 手 的 问题 。 当 谈 到 稳定 性 问题 的 时 候 ， 拥 
有 工程 背景 的 人 经 常会 想到 有 界 输 入 和 有 界 给 出 (BIBO) 的 稳定 性 准则 。 依 照 这 一 准则 ， 稳 
定性 意味 着 如 果 有 界 的 输入 和 初始 条 件 或 没有 不 必要 干扰 ， 那 么 系统 的 输出 就 必定 不 会 无 界 
地 增长 (Brogan,1985)。BIBO 稳定 性 准则 非常 适合 于 线性 动态 系统 。 但 是 ， 由 于 嵌 人 神经 元 
结构 之 中 的 饱和 非 线性 使 得 所 有 的 这 样 一 些 非 线性 动态 系统 都 是 BIBO 稳定 的 ， 所 以 把 BIBO 
稳定 性 准则 应 用 到 神经 网 络 上 是 无 用 的 。 

当 在 非 线性 动态 系统 背景 谈 到 稳定 忻 时 ， 我 们 通常 都 意味 着 Lyapunov 意义 的 稳定 性 。 在 
1892 年 一 个 值得 庆贺 的 日 子 里 ，Lyapunov( 一 位 俄罗斯 数学 家 和 工程 师 ) 提 出 了 众所周知 的 稳 
定性 理论 基本 概念 一 一 Lyapunov 直接 方法 。 这 一 方法 被 广泛 用 于 线性 和 非 线性 系统 中 的 稳定 
性 分 析 ， 包 括 时 不 变 和 时 变 两 种 情况 。 央 此 ， 它 可 以 直接 用 于 神经 网 络 中 的 稳定 性 分 析 。 事 
实 上 ， 本 章 中 提 到 的 很 多 材料 都 涉及 到 Lyapunoy 真 接 方法 。 但 是 ， 它 的 应 用 不 是 一 个 轻松 的 
任务 。 

对 神经 动力 学 的 研究 可 能 会 遵从 两 种 途径 之 一 ， 这 取决 于 实际 的 应 用 ， 

。 确定 性 神经 动力 学 : 此 时 神经 网 络 模型 带 有 确定 的 行为 。 数 学 上 用 一 组 非 线 性 微分 
方程 来 描述 ， 微 分 方程 定义 作为 时 间 函 数 的 模型 的 精确 进化 (Grossberg, 1967; Cohen 
and Grossberg,1983; Hopfield ,1984) 。 

。 统计 性 神经 动力 学 : 此 时 神经 网 络 受到 存在 噪声 的 扰 动 。 在 这 种 情况 卜 ， 我 们 将 不 
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得 不 处 理 随 机 非 线 性 微分 方程 组 ， 因 而 用 慨 率 术语 表示 解 (Amari et 引 . ,1972; Peretto， 
1984; Amari,1990)。 随 机 性 和 莫 线 性 的 组 合 使 得 这 个 主题 将 非常 难于 处 理 。 
在 本 章 中 ， 我 们 将 自己 限制 在 备 定性 神经 动力 学 之 内 。 


本 章 的 组 织 


本 章 中 的 材料 分 成 三 个 部 分 。 在 由 !4,2 节 到 14.6 节 组 成 本 章 的 第 一 部 分 ， 我 们 提供 介 
绍 性 的 材料 。14.2 节 介 绍 一 些 副 态 系统 中 的 基本 慨 念 ， 随 后 在 14.3 节 中 讨论 的 平衡 点 稳定 
性 。14.4 节 中 描绘 在 动态 系统 研究 中 浮现 出 的 各 种 类 型 的 吸引 子 。 在 14,5 节 再 次 讨论 曾 
经 在 第 13 章 中 导出 的 神经 元 的 加 性 模型 。 在 14.6 节 过 论 作为 神经 网络 范例 的 吸引 子 的 运 
F 








本 章 第 二 部 分 由 14,7 节 到 i4.11 节 组 成 ， 处 理 联 想 记 忆 。14,7 节 致 力 于 详细 讨论 
Hopfield 模型 利 作为 按 内 容 寻 址 记忆 使 用 的 讽 散 Hopfield 模型 的 纲 节 问题 。 在 14.8 节 提 出 
Hopfield 网 络 这 种 应 用 上 的 计算 机 实验 。14.9 节 中 对 于 包含 Hopfield 网 络 和 其 他 联想 记忆 的 
非 线性 动 念 系统 作为 其 特例 的 非 线 性 系统 ， 给 出 它们 的 Cohen-Gmssberg 定理 。 在 14,10 节 中 
描述 另 一 个 被 称 为 盒 中 脑 状 态 模型 的 神经 劲 访 学 模型 ， 凉 模型 非常 适用 于 到 类 。14.11 节 提 
出 对 这 个 第 二 种 模型 上 的 计算 机 实验 。 

最 后 部 分 由 14,12 节 到 14,14 节 组 成 ， 处 理 混 钝 的 论题 。14,12 节 讨 论 混沌 过 程 的 不 变 
特征 ， 随 后 在 14,13 节 讨 论 混沌 过 程 动力 学 重建 这 一 紧密 相关 古 目 。 动 力学 重建 的 计算 机 实 
验 在 14.14 节 中 给 出 。 

本 章 在 14,15 节 中 用 一 些 最 后 评论 结束 本 章 。 
14.2 动态 系统 

为 了 进行 神经 动力 学 的 研究 ， 我 们 需要 用 一 个 数学 模型 撒 述 非 线性 系统 的 动力 学 。 白 然 
最 适合 这 一 用 途 的 模型 就 是 状态 空间 模型 。 根 据 这 个 模型 ， 我 们 考虑 一 组 状态 变量 ， 假 设 这 
些 变量 的 值 (在 任意 特定 时 刻 ) 都 包含 充分 的 信息 可 以 预测 系统 的 可 能 演化 。 令 zf ,oo ( 虽 ， 
,5w( 七 ， 表 示 非 线性 动态 系统 的 状态 变 基 ， 其 中 连续 时 间 ! 是 独立 变量 且 六 为 系统 的 阶 。 
为 了 简化 符号 ， 把 这 些 状态 变量 收集 在 一 个 叫做 系统 状态 向 量 的 六 xl 的 向 量 x( 里 。 那 么 
非 线性 动态 系统 的 一 大 类 的 动力 学 特性 就 可 以 用 一 阶 微分 方程 组 

9 = 六 (0()， 了 = 1.2 (14.1) 

萝 形 式 给 出 ， 一 般 来 说 ， 其 中 的 函数 万 ( ) 是 它 的 自 变量 的 非 线性 函数 。 我 们 可 以 用 向 量 符 
号 把 这 个 方程 组 写成 紧凑 形式 




































































县 Ko = Fax(n) (14.2) 
其 中 非 线性 函数 下 是 向 量 值 的 ， 它 的 每 一 个 元 素 作用 于 下 述 状态 向 量 中 的 一 个 对 应 元 素 ; 
X(E) = L xi(E) ra(b ov(CED)] 7 《14.3) 


如 在 式 (14.2) 中 那样 ， 若 向 量 数 F(x(4)) 不 显 式 地 依赖 于 时 间 上 :， 则 这 样 的 非 线 性 动态 
系统 被 称 为 自治 的 (aulonomous); 否则 称 为 非 自 治 的 (nonautonomous) … 。 我 们 只 关注 自治 系 
统 。 
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不 管 非 线性 函数 F(' ) 的 精确 形式 是 什么 ， 状 态 向 量 X( 幻 必 须 随时 间 改 变 ; 否则 ，x() 








就 是 常 基 而 系统 也 不 青 是 动态 的 。 因此 我 们 可 以 正式 定义 一 个 动态 系统 如 


动态 系统 是 状态 随时 间 变 化 的 系统 。 
此 外 ， 我 们 可 以 把 dxy/ 才 作为 速度” 


考虑 ， 不 是 在 物理 意义 上 而 是 在 抽 





象 意义 上 的 。 那 


么 ， 恨 据 式 (14.2?， 可 以 将 向 量 函 数 F(x) 称 为 速度 向 量 场 或 者 简单 地 称 为 向 量 场 (vector 


field)。 
状态 空间 


能 是 欧 几 里 德 空 
些 徽 分 流 形 。 但 是 ， 我 们 的 兴 

状态 空间 很 重要 ， 因 为 它 给 
非 线性 系统 的 动力 学 。 它 是 通过 
或 数值 解 的 细节 方面 来 实现 的 。 

在 一 特定 时 刻 上， 用 维 状态 空间 中 
的 一 个 点 表示 系统 被 观察 状态 ( 即 状态 向 
量 x(4))。 用 状态 空间 中 的 一 条 曲线 表示 
系统 状态 随时 间 上 的 变化 ， 曲 线 上 的 每 一 
点 都 ( 显 式 地 或 隐 含 地 ) 带 有 记录 观察 时 间 
的 标记 。 这 条 曲线 叫做 系统 的 轨 线 或 扫 
道 。 图 14- 1 摘 绘 一 个 二 维系 统 的 轨 线 。 轨 
线 的 瞬时 速度 ( 即 速度 向 量 dx(t)/ 恬 ) 用 切 
向 量 表示 ， 如 图 14-1 中 * = 时 刻 用 虚线 
的 表 下 。 因 此 我 们 可 以 得 出 轨 线 上 每 一 点 
的 速度 向 量 。 


间 方 程 (14.2) 看 作 描述 w 维 状态 空 








趣 只 限于 欧 氏 空间 - 
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间 中 一 个 点 的 运动 是 有 益 的 。 状 态 空间 可 
间或 者 是 它 的 一 个 子 集 。 也 可 能 是 非 欧 氏 空间 ， 就 像 圆 、 球 、 坏 或 者 其 他 一 


我 们 提供 可 视 的 /概念 化 的 工具 用 来 分 析 由 式 (14.2) 撒 述 的 
世 我 们 的 注意 力 集中 于 运动 的 全 局 特性 而 不 是 方程 的 解析 解 








由 不 同 初 始 条 件 产生 的 不 同 轨 线 的 集 
合 称 为 系统 的 状态 相 图 (state portrait)。 状 
态 相 图 包含 状 态 空间 中 所 有 那些 定义 向 量 
场 F(x) 的 点 。 注 意 对 于 自治 系统 来 说 ， 每 





因 


图 14-1 一 维 动态 系统 的 轨 线 ( 罗 道 》 


种 初始 状态 将 只 有 一 条 轨 线 穿 过 。 从 状态 相 图 产生 的 -- 个 有 用 概念 是 动态 系统 的 流 (fow)， 


被 定义 为 状态 空间 在 系统 内 部 的 运动 。 换 句 话 说， 
就 像 一 种 流体 ， 每 
撕 述 的 流 的 思想 在 图 4-2 的 状态 相 图 














可 以 想像 一 下 状态 空间 在 自身 内 部 流动 ， 


一 个 点 (状态 ) 沿 着 一 条 特定 罗 线 的 流动 (Abraham and Shaw, 1992 )。 这 里 
中 有 生动 的 说 明 。 





给 定 一 个 动态 系统 的 状态 相 图 ， 可 以 构造 一 个 羽 
向 量 场 。 这 样 得 到 的 岁 也 提供 系统 中 向 量 场 的 描绘 。 
全 的 场 看 














提出 一 种 对 动态 系统 








给 我 们 





应 于 状态 空间 中 每 一 个 点 的 速度 (切线 ) 
图 14-3 中 显示 许多 速度 向 量 ， 展 现 完 





起 来 像 什么 样子 。 向 量 场 的 用 处 在 于 事实 上 它 通 过 在 状态 空间 中 每 一 个 特定 点 以 惯 
固有 运动 倾向 的 可 视 摘 述 。 
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图 14-2 二 维 动 态 系统 的 状态 (相位 ) 图 图 14-3 二 维 动力 系统 向 量 场 
Lipschitz 条 件 


为 了 状态 空间 方程 (14.2) 有 解 且 是 惟一 解 ， 必 须 在 向 量 函 数 F(x) 上 施加 … 定 的 限制 。 
为 了 使 于 表示 ， 我 们 已 经 舍弃 了 状态 向 量 x 对 时 间 : 的 依 丈 ， 而 这 是 我 们 一 次 又 一 次 遵从 的 
惯例 。 存 在 解 的 充分 条 件 为 F() 对 它 的 所 有 自 变 量 是 连续 函 效 。 然 而 ， 它 这 一 限制 本 身 不 
足以 保证 解 的 惟一 性 。 为 了 做 到 这 一 点 ， 我 们 必须 施加 被 称 为 Lipschitz 条 件 的 额外 限制 。 令 
| x || 表示 向 量 x 的 范 孝 或 者 欧 几 里 德 长 度 。 令 x 和 日 作为 赋 范 向 量 (状态 ) 空 间 上 某 一 开 集 
世上 的 一 个 向 量 对 。 然 后 ,很 据 Lipsehitz 条 件 ， 存 在 一 个 常量 玉 使 得 下 式 对 届 中 所 有 的 x 和 
都 成 立 (Hirsch and Smale,1974; 了 .ALJackson,1989 ): 

1 FGx) -CD < 帮 lx-l 《14.4) 
满足 式 (14.4) 的 向 量 值 果 数 F(x) 被 称 为 满足 Lipschie 条 件 ， 天 叫 微 下 (x) 的 Lipschitz 常数 。 
式 (14.4) 也 意味 着 丽 数 F(x) 关 于 x 的 连续 性 。 因 此 ， 对 自治 系统 来 说 ，Lipsehitz 条 件 是 状态 
空间 方 称 (14.2) 存 在 且 只 存在 惟 … 解 的 充分 条 件 。 特 别 地 ， 如 果 所 有 偏 导数 已 吕 z 处 处 有 
限 ， 则 函数 F(x) 满 足 Lipsehitz 条 件 。 


散 度 定理 


考虑 日 治 系统 状态 空间 中 某 个 体积 了 和 曲面 3 的 区 域 ， 并 且 设 想 由 区 域 的 点 组 成 的 
“ 流 ”。 从 以 前 的 讨论 ， 我 们 认识 到 速度 向 量 4x/ 必 和 向 量 场 R(x) 是 相等 的 ， 倘 芳 体 积 “内 
的 向 量 场 F(x) 是 相当 交 消 ， 则 可 以 从 癌 量 微 积 分 学 的 角度 应 用 长 度 定理 (jackeon,1975 )。 令 
卫 表 示 曲 面 $S 上 某 小 块 吵 处 指向 所 包含 体积 外 部 的 单位 法 向 量 。 然 后 ， 根 据 散 度 定理 ， 关 
系 式 




















| eeo ,mas -| zt) 《14.5) 
在 FCD 散 度 的 体积 分 和 Ex) 疝 外 法 线 分 量 的 曲面 积分 之 间 成 立 。 式 (14.5) 左 端的 值 被 认为 
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是 从 曲 面 $ 所 包 围 的 区 域 中 流 癌 外 部 的 净 流 曹 。 旭 果 该 值 为 零 ， 则 说 系统 是 保守 的 
(conservative); 若 为 外 ， 则 说 系统 是 耗 向 的 {dissipative)。 根 据 式 (14.5}， 同 样 可 以 说 ， 如 果 
散 度 V 'F(x)( -个 标量 ) 为 零 则 系统 是 保守 的 ， 若 为 负 则 系统 十 耗 散 的 。 

14.3 ”平衡 状态 的 稳定 性 


考虑 由 状态 空间 方 穆 (14.2) 描 述 的 自治 动态 系统 。 一 个 常 向 量 RE J 称 为 系统 的 平衡 ( 稳 
定 ) 状 态 ， 如 果 条 件 

















F(x) =0 (14.6) 

满足 ， 其 中 的 8 为 零 向 量 。 速 度 向 量 dxyd 在 平衡 状态 立 处 消失 ， 因 此 常量 方程 XL) =X 是 

方程 (14.2) 的 解 。 此 外 ， 由 于 解 的 惟一 性 ， 没 有 其 他 的 解 曲线 能 够 穿 过 平衡 状态 xs。 平衡 状 
态 也 称 为 奇异 点 ， 表 示 在 平衡 点 这 种 情况 下 ， 轨 线 将 会 退化 到 这 个 点 本 身 。 

为 了 加 深 对 平衡 条 件 的 理解 假设 非 线性 函数 F(x)y 对 于 状态 空间 方程 (14.2) 米 说 足够 

光滑 ， 使 得 在 乏 的 邻 域 可 以 作为 线性 因 数 处 理 . 特别 ， 令 
XCi) =+Ax(i) (14.7) 
中 的 Ax( 区 是 xx 的 微小 偏差 。 然 后， 保留 F(x) 的 Tayior 级 数 展开 中 的 前 两 项 ， 将 其 近似 



































为 
F(x) 一 X+AAKKCI) 《14.8) 
拢 阵 A 是 非 线 性 方程 F(x) 的 Jacobi 矩阵 ， 在 x= 天 点 处 计 值 ， 表 示 为 
A- ?Ptoo (4.9) 
将 式 (14.7) 和 式 (14.8) 代 人 式 (14.2)》， 然 后 使 用 平衡 状态 的 定义 ， 我 们 得 到 
了 As(D) ~ AhxfD) (14.10) 





倘若 Jacobi 天 阵 A 是 非 奇 异 的 ， 即 逆 矩 阵 A…… 存 在 ， 式 (14.10) 描 述 的 近似 值 足以 确定 系统 
辆 线 在 平衡 状态 & 邻 域 的 局 部 人 性质。 如 果 A 是 非 奇异 的 ， 则 平衡 状态 的 性 质 主要 取决 于 入 
的 特征 值 ， 因 此 可 以 根据 它 的 相应 方式 进行 分 类 。 特 别 ， 当 Jacobi 矩阵 A 的 特征 值 有 产 个 
带 存 正 实数 部 分 ， 我 们 可 以 说 平衡 状态 和 属 于 类 型 (ype)m。 

对 于 二 阶 系 统 这 种 特殊 情况 而 言 ， 平 衡 状 态 的 分 类 可 归结 为 表 14-1 所 列 情 况 ， 相 应 相 
图 表示 在 图 14-4 中 {Cook ,1986; Arowsmith and Place,1990)。 不 失 一 般 性 ， 假 设 平衡 状态 位 于 
状态 空间 的 原点 ， 也 就 是 x=0 的 地 方 . 注意 对 于 图 14-4e 中 的 芝 点 ， 通 向 鞍点 的 轨 线 是 稳 
定 的 ， 而 从 鞍点 高 开 的 轨 线 则 是 不 稳定 的 。 


表 14-1 二 阶 系统 平衡 状态 的 分 类 























平衡 状态 x 的 类 型 Jacahi 知 阵 AA 的 特征 值 
稳定 结 点 一 ” 员 实 数 

稳定 焦点 实 部 为 负 的 共 晃 复数 
不 稳定 结 点 正 实数 

不 稳定 全 点 实 部 为 止 的 此 匈 复 数 
蕉 点 不 同 号 的 实数 


中 心 共 生 纯 虚数 
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a) 稳 定 结 点 bb) 稳定 焦点 e) 不 稳定 结 点 “由 不 稳定 焦点 ”e) 藤 点 作 中 心 
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稳定 性 定 尽 


就 像 已 经 简略 叙述 过 的 那样 ， 状 态 空 站 方程 的 线性 化 可 以 提供 关于 “个 平衡 状态 的 局 部 
稳定 特性 的 有 用 信息 。 但 是 ,为 了 能 以 一 种 更 如 细节 化 的 方式 研究 非 线 性 动态 系统 的 稳定 
性 ， 我 们 需要 关于 平衡 状态 的 稳定 性 和 收敛 性 的 精确 定义 。 

在 和 带 有 平衡 状态 x 的 自治 非 线 忻 动态 系统 相关 的 坏 境 中 ， 稳 定性 和 收敛 性 的 定义 如 下 
【Cook,1986 ) : 

定义 1 若 对 于 任意 给 定 的 正 数 s， 存 在 一 正 数 8$， 使 得 当 满足 条 件 | x(0) -xl <8 时 ， 
对 于 所 有 上 >0 恒 有 | x(5 -| <e， 则 称 平衡 状态 双 为 一 致 稳定 的 。 

这 一 定义 表明 如 果 初 始 状态 x(0) 很 接近 X， 则 系统 的 一 条 轨 线 可 能 会 停留 在 平衡 状态 又 
很 小 的 一 个 邻 域 内 。 

定义 2 如果 存 在 一 个 正 数 》 使 得 当 条 件 ‖| x(0) -过 | < 时 ， 对 于 一 有 xD 一 x， 则 
称 平衡 状态 X 为 收敛 的 。 

第 二 个 定义 的 含义 在 于 如 果 一 条 轨 线 的 初始 状态 x(0) 足 够 接近 于 平衡 状态 X， 则 在 时 间 
E 接近 无 穷 的 时 候 由 状态 向 量 X(i) 所 描述 的 轨 线 将 收敛 于 X。 

定义 3 若 平衡 状态 是 稳定 的 并 且 是 收敛 的 ， 则 称 平衡 状态 x 为 渐 近 稳定 的 。 

这 里 我 们 要 注意 稳定 性 和 收敛 性 是 互相 独立 的 性 质 。 只 有 两 者 都 具备 才 有 渐 近 稳定 性 。 

定义 4 如 果 平 衡 状 态 是 稳定 的 并 且 所 有 的 系统 轨 线 在 时 间 上 接近 无 穷 的 时 候 都 收 伍 于 
元 ， 则 称 平衡 状态 区 为 浙 近 稳定 的 或 者 全 局 新 近 稳 定 的 。 

这 一 定义 意味 着 系统 不 可 能 有 其 他 的 平衡 状态 ， 而 卫 它 要 求 系统 中 的 每 一 条 轨 线 对 所 有 
的 时 间 ! > 0 部 保 持 有 界 。 换 句 话说 ， 全 局 渐 近 稳定 任意 味 若 对 于 任意 初始 条 件 系统 都 将 最 
终 稳 定 在 一 个 稳 态 上 。 

例 14.1 令 由 式 (14.2) 表 示 的 非 线性 动态 系统 的 解 af 就 像 图 14-5 中 说 明 的 那样 随时 
闻 变 化 。 如 财 134-5 所 示 . 为 了 解 民品 是 一 致 稳定 的 ， 我 们 需要 at 和 任何 其 他 解 v( 巧 在 同 
样 的 ; 值 (即时 间 "* 滴 答 ”) 时 保持 互相 接近 。 这 种 行为 被 称 为 两 个 解 u( 刀 和 Y( 全 的 同步 对 应 
《isochronous correspondence)( 下 ,A.Jackson,1989 )。 设 解 上 ( 旨 是 收敛 的 ， 假 定 对 于 每 一 个 其 他 
的 解 Y( 蚊 ， 在 5=0 处 |Y(0) -waO) 1 和 ss) 成立， 则 解 了 (5 和 utb) 当 上 趋 于 无 穷 时 收敛 于 
平衡 状态 。 国 







































































图 !4-5 状态 向 量 一 致 稳定 (收敛 ) 的 概念 图 示 
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Lyapuneyv 定理 


已 经 定义 了 动态 系统 的 稳定 仁 和 贬 近 稳定 性 ， 下 - -个 要 考虑 的 问题 就 是 确定 稳定 人 性。 显 
而 易 见 我 们 可 以 通过 实际 地 找到 系统 状态 空间 方程 的 所 有 可 能 解 来 做 到 ; 但 是 这 种 方法 即使 
不 是 不 可 能 也 是 疾 常 困难 的 。 一 个 更 精 笃 的 方法 可 以 在 现代 稳定 性 理论 中 找到 ， 沪 理论 由 
Lyapunov 创立 。 具 体 地 ， 我 们 可 以 通过 应 用 [yapunov 直接 方法 来 研究 稳定 性 问题 ， 这 个 方法 
使 用 叫做 Lyapunov 现 数 的 状态 向 量 的 连续 慰 基 员 数 。 

由 方程 (14.2? 描 述 的 具有 状态 向 量 x( 4) 和 平衡 状态 X 的 自治 非 线性 动态 系统 ， 关 于 它 的 
状态 空间 的 稳定 性 和 渐 近 稳定 性 的 Lyapunov 定理 可 以 陈述 如 下 : 

定理 革 如 果 在 和 的 小 邻 域内 存在 -- 个 正定 函数 F(x) ， 其 对 时 间 的 导数 在 该 区 域内 是 半 
负 定 的 ， 则 平衡 状态 是 稳定 的 。 

定理 2 如 果 在 和 的 小 邻 域内 存在 一 个 正定 晒 数 F(X) ， 其 对 时 间 的 导数 在 该 区 域内 是 负 
定 的 ， 则 平衡 状态 交 是 渐 近 稳 定 的 - 

满足 以 上 要 求 的 标量 明 数 Y(x) 则 做 平衡 状态 的 驻 的 [yapunov 阴 数 。 

这 丙 个 定理 要 求 [yapunov 函数 是 正定 蚌 数 。 这 样 的 丽 数 定义 如 下 : 在 状态 空间 史 中 ， 如 
果 对 所 有 的 xE 岁 ， 满 足以 下 要 求 ， 则 称 其 为 二 定 函 数 。 

1. 函数 Y(x) 对 状态 向 量 x 中 所 有 元 素 有 连续 偏 导 数 

2. KR) =0 

3. 如 果 xzxX， 则 FCx) >0 

给 出 这 样 的 Tyapunor 函数 Y(x)， 根 据 定理 1， 若 ?对 于 XE 咏 - 









































芭 oo <0 对 TxEq-x (14.11) 
成 立 ， 贡 平 衡 状 态 浆 是 稳定 的 ， 其 中 qV 是 立 的 小 邻 域 ， 此 外 ， 根 据 定 了 于 2， 若 

瑟 0 < 0 对 于 六 毛色 - 立 《14.12) 
成 立 ， 则 平衡 状态 站 是 新 近 生 定 的 - 





这 一 讨论 的 重要 之 处 在 于 可 以 林 求 解 系统 的 状态 空间 方程 而 扣 接 应 用 Lyapunov 定理 。 不 
幸 的 是 ， 定 理 并 没有 给 出 如 何 找到 [yapunov 函数 的 提示 ; 在 每 种 情况 它 是 一 件 创 造 性 、 尝 试 
和 和 犯错 误 的 事情 。 对 于 感 兴趣 的 很 多 阿 题 ， 能 量 函 数 可 以 起 到 Lyapunov 函数 的 作用 。 但 是 ， 
无 法 找到 适用 的 Lyapunov 函数 并 不 能 证 明 系 统 的 不 稳定 性 。 因 为 Lrapunov 函数 的 存在 是 系统 
稳定 的 充分 条 件 ， 而 不 是 必要 条 件 。 

Tyapunov 巩 数 F(x) 为 对 由 式 (14.2) 措 述 的 非 线 性 动态 系统 进行 全 局 稳定 性 分 析 提 供 数 
学 基础 。 另 一 方面 ， 基 于 Jacobi 矩阵 A， 使 用 式 (14,10) 为 进行 系统 局 部 稳定 性 分 析 提供 基 
础 。 全 局 稳定 性 分 析 的 结论 比 局 部 分 析 更 有 力 ; 因为 每 个 全 局 稳定 的 系统 必定 是 局 部 稳定 
的 ， 反 之 则 不 然 。 


14.4 豚 引 子 


耗 散 系 统一 般 可 以 用 存在 吸引 集 或 者 比 状 态 空间 维 数 低 的 流 形 来 表征 。“ 流 形 " 是 指 评 人 
在 N 维 状态 空间 中 的 一 个 下 维 曲 面 ， 它 由 方程 组 
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下 
下 < 
定义 ， 其 中 xl ,za 是 系统 认 维 状态 向 量 的 无 素 ， 凡 是 这 些 元 素 的 一 个 函数 。 这 些 流 
内 称 为 用 引子 ”， 这 是 因为 吸引 子 为 有 界 子 集 ， 声 始 条 件 为 非 零 状态 空间 体积 的 区 域 随时 间 

增加 而 收敛 到 它们 (0tt,1993 )。 

流 形 可 以 是 状态 空间 中 的 一 个 点 ， 这 种 情况 叫做 点 有 引子。 习 外 ， 它 也 可 以 是 周期 性 轨 
道 ， 这 种 情况 叫做 稳定 的 极 展 环 ， 稳 定 意味 着 附近 的 轨 线 渐 近 地 趋 近 它 。 图 14-6 质 绘 这 两 
种 类 型 的 吸引 子 。 吸 引子 代表 动态 系统 中 的 惟一 可 以 通过 用 实验 方法 观察 到 的 乎 衡 状态 。 但 
是 , 注意 在 吸引 子 的 情况 下 ,平衡 状态 (eqmuilibrum ) 既 不 意味 着 一 个 静态 平衡 (static 
equilibrium) ， 也 不 意味 一 个 定常 状态 (steady state)。 例 如 ， 一 个 极限 环 代 表 …… 个 吸引 子 的 稳 
定 状态 {stabie state) ， 但 是 它 随 时 间 连 续 变化 。 

在 图 14-6 中 ,我 们 注意 每 个 吸引 子 由 它 自己 独 有 的 区 域 包围 。 这 样 的 区 域 叫 做 级 引 爹 
( 域 )(pasin(domain) of attraction)。 同 时 注意 系统 的 每 个 初始 状态 都 在 某 一 吸引 子 的 盆 中 。 分 
陋 不 同 吸引 贫 的 边界 叫做 分 界线 (separatrix)。 图 14-6 中 盆 的 边界 由 轨 线 1 、 鞍 点 @ 和 雪线 
妈 的 并 表示 。 

极限 环 组 成 非 线 性 系统 的 平衡 点 变 得 不 稳定 时 出 现 的 振 功 行 为 的 典型 形式 。 央 此 ， 它 可 
能 出 现在 任意 阶 的 系统 中 。 虽 然 如 此 ， 极 限 环 是 二 阶 系统 特殊 的 特征 。 


1 { (14.13) 






























































图 14-6 ”吸引 釜 概念 和 分 界线 因 想 外 
双 曲 吸引 子 
考虑 一 个 点 吸引 子 ， 通 过 使 用 14.2 节 中 描述 的 方式 将 它 的 非 线 性 动态 方程 在 平衡 状态 世 
附近 线性 化 。 令 A 表示 系统 在 x= 莹 处 计算 出 的 Jacobi 矩阵 。 如 果 A 所 有 特征 值 的 绝对 值 都 
小 于 1， 则 吸引 子 是 双 井 豚 引子 (lyperbolic attractor)( Out,1993 )。 例 如 ， 二 阶 双 曲 吸引 子 的 流 
可 以 为 图 14-4a 或 者 14- 4b 中 所 显示 的 形式 ; 两 种 情况 F Jacobi 此 阵 A 的 特征 值 都 有 负 实 数 
部 分 。 双 曲 吸 引子 在 称 为 消除 梯度 问题 的 研究 中 受到 特别 的 关注 ， 这 种 问题 出 现在 动态 驱动 
的 递归 网 络 中 ; 这 一 问题 在 下 一 章 讨 论 。 


14.5 神经 动态 模型 
对 非 线性 动态 系统 的 性 能 有 所 了 解 之 后 ， 准 备 在 本 节 和 下 一 节 探 讨 一 下 神经 动力 学 所 包 
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售 的 一 些 重要 问题 。 我 们 要 强调 的 是 ， 对 于 神经 动力 学 还 没有 一 个 被 普遍 认可 的 定义 。 我 们 
也 不 是 要 给 出 这 样 一 个 定义 ， 而 是 将 定义 本 章 中 所 考 碟 的 神经 动力 学 最 善 忆 的 属性 。 特 别 
地 ， 讨 论 将 局 限于 状态 变量 是 连续 的 并 且 运 动 方程 由 微分 方程 或 差分 方程 描述 的 神经 动态 系 
统 。 受 关注 的 系统 共有 四 个 普遍 特性 (Peretto and Niez,1986; Pineda,1988a) : 

1 大量 自 由 度 。 人 脑 皮 层 是 高 度 并 行 的 分 布 式 系统 ， 据 估计 火 约 有 100 亿 个 神经 元 ， 每 
个 神经 元 用 一 个 或 更 多 状态 变量 描述 。 据 信 这 样 一 个 神经 动力 学 系统 的 计算 能 力 和 容错 能 力 
是 系统 的 集体 动力 学 的 结果 。 系 统 可 以 表征 为 大 量 的 由 每 个 突 触 连接 的 强度 (效能 
(effficacy) ) 表 示 的 更 合 常量 。 

2. 非 线性 性 。 神 经 动力 学 系统 是 非 线性 的 。 事 实 上 ， 非 线性 是 建立 通用 计算 机 器 的 基 
础 。 

3. 耗 散 性 。 神 经 动力 学 系统 是 耗 散 的 。 因 此 ， 它 由 状态 空间 体积 随时 间 的 延展 收 伍 于 
一 低 维 流 形 这 一 收 和 化 性 表征 。 

4. 噪声。 最 后 ， 嗓 声 是 神经 动态 系统 内 在 特征 。 在 实际 神经 元 中 ， 膜 曲 声 在 突 触 连接 
处 产生 (Katz,1966)。 

喇 声 的 存在 需要 对 神经 元 行为 利用 概率 处 理 ， 这 给 分 析 神 经 动力 学 系统 赠 加 了 另 一 层次 
凸 的 复杂 性 。 对 随机 神经 动力 学 的 详细 处 理 超出 东 书 的 范围 。 因 此 ， 以 后 的 材料 中 均 忽略 品 


























考虑 图 14-7 中 所 显示 的 神经 元 的 无 噪声 动态 模型 ， 其 数学 基础 已 在 13 章 讨 论 过 了 。 使 
用 物理 术语 ， 突 触 权 值 xm ,zez ，…,zw 表 未 传导 系数 ， 各 自 的 输入 mm Cr) ,xz(t) ,xnw( 下 家 
示 电 压 ， 闪 是 输入 数量。 这 些 输入 被 用 于 有 如 下 特点 的 电流 求 和 连 贸 上 : 
6 *。 低 和 输入 阻抗 
*。 单位 电流 增益 


*。 高 输出 阻抗 
因此 对 输入 电流 来 说 ， 它 扮演 求 和 节点 的 角色 。 狗 14-7 中 非 线性 元 素 (激活 函数 ) 流 向 


输入 节点 的 总 电流 流量 为 








六 wx 十 瑟 
其 中 第 一 项 ( 求 和 项 ) 是 由 于 刺激 zi (r ,zxa(t，…， antt) 分 别 作用 在 突 触 权 值 (传导 系 数 ) 
z ,如 ya 上 ， 第 二 项 是 由 于 电流 源 1 代表 额外 施加 的 偏 填 。 令 。( 昌 表示 非 线性 激活 
函数 o(' ) 输 入 处 的 诱导 局 部 域 。 因 此 我 们 可 以 表示 从 非 线性 元 素 的 输入 节点 流出 的 总 电流 
量 为 

2 
其 中 第 一 项 是 由 于 漏 泄 阻抗 局 ， 第 二 项 是 由 于 漏 洪 电 容 Ci 。 根 据 Kirehoff 电流 定律 ， 我 们 知 
道 电路 中 流向 任何 节点 的 总 电流 流量 为 零 。 通 过 应 用 Kxichof 电流 定律 于 图 14-7 中 的 非 线性 
输入 节点 ， 得 到 
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了 
G 包 的 2 = 官 onl0+7 04.14) 


式 (14.I94) 左 端的 电容 项 Cdor(b/ 必 避 在 术 吕 度 旬 上 沽 加 芭 学 (记忆 ) 的 最 和 单 的 途径 - 
给 定 诱 导 局 部 域 w( 旨 ， 可 以 通过 使 用 非 线性 关系 

和 (= (ww()) {14.15) 
确定 神经 元 7 的 输出 。 由 式 (14.14) 描 述 的 RcC 模型 通常 称 为 加 性 模型 ; 这 一 术语 用 于 区 别 本 157 
模型 和 zu 依 屿 于 x 的 乘法 (或 并 联 ) 模 型 (Grossberg,1982 )。 


如 
月 ao 人 











人 














0 介 


了 0 “ 。 非 线性 性 。 神经 输出 











突 胡 输入 4 (0 














加 的 





图 14-7 神经 元 的 加 性 模型 


由 式 (14.14) 描 述 的 加 性 模型 的 一 个 显著 特性 就 是 相 邻 神经 元 ;施加 在 神经 元 7 上 的 信号 

乞 ( 旨 是 随时 间 : 缓慢 改变 的 。 因 此 描述 的 模型 组 成 传统 神经 动力 学 的 基础 。 

继续 考虑 一 个 包含 W 个 互相 连接 的 神经 克 的 远 归 网 络 ， 假 设 其 中 每 一 个 神经 元 都 有 由 

式 (14.14) 和 式 (14.15) 描 述 的 同样 数学 模型 。 那 么 ， 忽 略 神经 元 内 部 时 间 传 播 的 延 凡 ， 我 们 

可 以 用 联 立 的 一 阶 微分 方程 组 

G 几 反 =-- 旺 57 了 = 1,2， 《14.16) 

的 系统 定义 网 络 的 动力 学、 它 和 状态 方程 (14.1) 有 同样 的 数学 形式 ， 并 且 是 式 (14.14) 中 各 

项 的 简单 再 排列 。 假 设 和 神经 元 了 的 笨 出 %( 纪 相关 的 激活 函数 9(') 对 它 的 诱导 局 部 域 来 说 
是 连续 和 可 微 的 函数 。 普 遍 使 用 的 激活 末 数 是 logistie 函数 





， 
9() = 于 剖 生 厅 可 = (14.17) 


]4,6 节 至 14.11 节 中 描述 的 学 习 算法 存在 的 必要 条 件 在 于 由 式 (14.15) 和 (14.16) 描 述 的 递归 
网 络 具 有 困 定 点 ( 即 点 吸引 子 )。 
相关 模型 

为 了 简化 说 明 ， 我 们 假设 式 (14,16) 中 神经 元 ， 的 时 间 常 数 r = 总 C 对 所 有 的 /都 是 一 样 
的 。 那 么 ， 通 过 关于 这 一 时 间 常 数 的 公共 值 归 一 化 时 间 上 ， 并 关于 品 妇 一 化 瓦 和 了 ， 可 以 
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重新 爸 造 式 (14.16) 的 模型 如 下 





和 全 -WO 下 wa 4 2 (14.18) 
作用 在 输入 向 量 每 个 
其 中 我 们 也 并 人 了 式 (14.15)。 联 立 一 阶 非 分 秆 上 的 非 线性 集 


线性 微分 方程 组 (14.18) 的 吸引 子 结构 和 以 
下 描述 的 紧密 相关 模型 的 吸引 子 结构 基本 
上 相同 (Pineda，1987) : 
宪 避 = 一 为 人) 十 
doxi 人 DT 瑟 7 = 12 
(14.19) 
由 式 (14.18) 描 述 的 加 性 模型 中 ， 独 立 神 经 
无 的 诱导 局 部 域 m (ma 人 (wowft 构 
成 状态 向 量 。 另 一 方面 ， 在 由 式 (14.19) 描 
述 的 相关 模型 中 ,神经 元 的 输出 xi)， 
2 xft) 构 成 状态 向 量 。 
这 两 种 神经 动力 学 模型 事实 上 通过 线 
性 的 可 逆 变 换 是 相关 的 。 有 具体 地 ， 通 过 在 
式 (14.19) 两 侧 同 乘 以 mm， 对 了 了 求 和 ， 然 
后 用 变换 
册 ( 人 = mi 人 
进行 苇 换 ， 得 到 一 个 由 式 (14.18) 所 描述 的 











类 型 的 模型 ， 并 且 由 此 发 现 两 个 模型 的 信 积分 人 “吓人 
置 项 由 于 
羡 = > oo 机 偏 置 向 量 
了 了 b] 
相关 联 。 这 旦 重要 之 处 是 注意 与 式 (14.18) ， 
的 加 性 模型 的 稳定 性 相关 的 结果 也 适用 于 图 14-8 
与 趟 (14.19) 相 关 的 模型 。 加 由 联 立 - - 阶 手 分 方程 组 (14.18) 胡 示 的 神经 动态 


这 里 描述 的 两 种 神经 动力 学 模型 之 问 系统 框 了 图“ 切 由 方程 给 (14.19) 描述 的 相关 和 模 型 的 框图 


的 紧密 关系 也 可 以 用 岗 14-8 中 的 框 贸 来 说 明 。 图 中 ua 和 b 部 分 分 别 对 应 于 式 (14.18) 和 
《44.19) 的 抢 阵 公式 ; W 是 突 触 权 值 矩 阵 ，Y( 世 是 在 时 间 # 的 诱导 局 部 域 向 量 ，x( 4) 是 在 时 
亲 : 的 神经 元 输出 向 量 。 两 种 模型 中 反馈 的 存在 赂 14-8 中 是 清晰 可 见 的 。 


14.6 ”作为 递归 网 络 范例 的 吸引 子 操作 


当 神 经 元 数量 w 非常 大 的 时 候 ， 除 去 噪声 的 影响 ， 式 (14. 16) 描 述 的 神经 动力 学 模型 只 
有 14.5 节 中 概述 的 普遍 特性 : 大 量 的 自由 度 、 非 线性 性 和 耗 散 性 。 因 而 ， 这 样 一 个 神经 动 
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力学 模型 可 能 拥有 复杂 的 吸引 子 结构 并 因此 展示 出 有 用 的 计算 能 力 。 

确认 具有 计算 对 象 (如 联想 记忆 、 和 输入 - 输出 映射 器 ) 的 吸引 子 是 神经 网 络 范例 的 一 个 基 
础 。 为 了 实现 这 一 思想 ， 我 们 必须 训练 控制 吸引 子 在 系统 状态 空间 中 的 位 冒 。 于 足 为 了 以 希 
思 的 形式 编码 信息 或 者 学 习 感 兴趣 的 时 间 结构 ， 学 习 算 法 采用 了 非 线性 动力 学 方程 的 形式 操 
纵 吸 引子 在 状 硫 间 的 位 置 . 通过 这 - 途径 ， 在 机 风 的 物理 性 能 和 计算 的 算法 之 间 建 立 紧密 
的 联系 是 可 能 的 。 

利用 神经 网 络 的 集体 属性 实现 计算 任务 的 一 种 途径 就 是 经 由 能 量 最 小 化 的 邮 念 。 在 
14.7 节 和 14.10 节 中 将 分 别 考虑 的 Hopfield 网 络 和 盒 中 脑 状 态 模型 是 这 种 方法 著名 的 例子 。 
这 两 种 模型 都 是 能 量 最 小 化 网 络 ; 它们 的 不 同 之 处 在 于 应 用 领域 不 同 。Hopfield 网 络 作为 按 
内 容 寻 址 存储 或 者 用 于 解决 组 合 类 型 最 优化 问题 的 模拟 计算 机 是 有 用 的 。 另 一 方面 ， 盒 中 脑 
状态 模型 对 子 育 类 类 型 的 应 用 是 有 用 的 。 本 章 后 面 
几 季 将 对 这 些 应 用 进行 说 明 。 

Hiopfield 网 络 和 念 中 脑 状 态 模型 是 不 含 降 藏 神经 
元 的 联想 记忆 的 实例 : 联想 记忆 是 智能 行为 的 一 个 
重要 来 源 。 另 一 个 神经 动力 学 模型 是 答 入 输出 映射 
器 类 型 的 ， 它 的 运行 依赖 于 隐藏 神经 元 的 可 用 性 。 
在 这 后 一 神情 况 中 ， 最 速 下 降 方法 经 常 被 用 于 最 小 
化 根据 网 络 参数 定义 的 代价 函数 ， 并 因此 改变 吸引 
子 位 置 。 这 后 一 种 神经 动力 学 模型 的 应 用 以 存 下 一 
章 中 讨论 的 动态 驱动 递归 网 络 的 作为 例子 。 


14.7 “Hopfield 模型 


如 图 14-9 中 描绘 的 那样 ，Hopfield 网 络 (模型 ) 
包含 一 组 神经 元 和 一 组 相应 的 单位 莲 退 ， 构 成 一 个 
多 四 路 反馈 系 纺 。 反 镇 轩 路 的 数量 等 于 神经 元 数 
最。 基本 上 ， 每 个 神经 元 的 输出 都 通过 一 个 单位 下 
迟 元 素 补 反馈 到 网 络 中 另外 的 每 一 个 神经 元 。 换 名 _ 
话说， 网 络 中 没有 自 反馈， 避免 使 用 自 反馈 的 原因 下 仆人 的 me 
将 在 后 面 解释 。 

为 了 研究 Hpfald 网 络 的 动力 学 ， 我 们 使 用 式 (14.16) 指 述 的 基于 神经 元 加 性 模型 的 神经 
动力 学 模型。 

认识 到 = (0 =g (a (9) 之 后 ， 我 们 可 以 拒 式 (14.16) 攻 写成 以 下 形式 ， 































































































> 于 - 


神经 元 单位 延迟 
操作 符 





已 有 (9 = - 2 十 加 思 (人 (0) + 了 = 1 (4.20) 


为 了 继续 讨论 ， 我 们 作出 以 下 假定 : 
1. 罕 触 权 值 矩阵 是 对 称 的 ， 表 示 为 
二 对 所 有 了 7 了 和: (14.21) 
2. 每 个 神经 元 有 它 自 己 的 非 线性 激活 函数 一 一 因此 在 式 (14.20) 中 使 用 中 人)。 
3. 非 线性 激活 函数 可 北 ， 因 此 可 以 写成 














[ 
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2 = 9 (zx) (14.22) 
令 sigmoid 琢 数 4 ( 切 由 双 曲 线 正 切 咀 数 
ai 工 - expt - az) 
xi(o) = tanh( 2 = (44.23) 
定义 ,在 原点 处 有 72 的 斜率 ， 表 示 为 xy 人 
名 dp， 
到 = 有 醒 (14.24)》 


5 


此 后 我 们 将 把 e, 称 为 神经 元 ; 的 增益 。 
因此 ， 式 (14.22) 的 逆 输 出 ~- 输 和 人 关系 可 以 写 





成 








uC _oel1 3 (14.25) 


-个 单位 增益 神经 元 的 道 得 出 -~ 输 和 人 关系 的 标准 
形式 定义 为 











ee = -log( 二 2 (04.26) 
按照 这 一 标准 关系 可 以 把 式 (14.25) 政 写 为 
(xz) = 二 ez) (14.27) 


or 
图 14- 108 显示 标准 semoid 的 非 线 修 吨 数 bf) 的 旧 


线 ， 图 14- 10b 显示 相应 的 非 线 仁 反 困 数 f-'(x) 的 
曲线 。 
图 14-9 中 的 Hopfield 网 络 的 能 量 (Lyapunov ) 
数 定义 为 (Hopfield ,1984) 


1 过 
有 = - 方 刀 wmm + 


ii 














四 ， (14,28) 
翌 让 宁 ( 罗 下- 呈 本 

由 式 (14. 28) 写 义 的 能 量 函 数 已 为 可 能 具有 很 多 极 
小 点 的 复杂 图 像 。 网 络 的 动力 学 由 寻找 那些 极 小 
点 的 机 制 措 述 。 








因此 , 求 互 对 时 间 的 微分 ， 得 到 站 
站 二 
只 -- 忆 ( -总 + 可 受 04.29) 图 14.10 
由 于 神经 动力 学 方程 (14.20) 所 具有 的 特点 。 式 站 全 作 几 “ 它 的 让 
(14.29) 右 端 圆 括号 内 的 值 被 认为 是 Cdo / 民 。 寺 是 可 以 把 式 (14.29) 简 化 为 
些 -- 袜 5( 风 和 《14.30) 


现在 考虑 由 % 定义 的 的 道 关 系 。 将 式 (14.22) 代 入 式 (14.30)， 得 到 
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[GE sa 
敌 -- 写 6[ 基 本 j 本 =-- 安 5[ 晤 ) [ 若 相 (043) 
从 图 14-10b 中 可 以 看 出 道 答 出 输 人 关系 gj (本 ) 对 输出 % 是 单 泣 增 孜 数 。 因 此 它 遵守 
蚜 g (zs) 0 对 所 有 的 (4.32) 
我 们 也 注意 
(多 20 对 所 有 的 思 (14.33) 


因而 ， 所 有 在 式 (14.31) 右 端 求 和 的 因子 都 是 非 负 的 。 换 句 话 说 ， 对 式 (14.28) 定 义 的 能 量 函 
数 互 来 说 ， 我 们 和 坚 <0。 由 式 (14.28) 的 定义 看 出 函数 瑟 是 有 界 的 。 因 此 ， 我 们 可 以 作出 
以 下 两 个 陈述 : 
1. 能 量 函 数 所 是 连续 Hopfield 模型 的 LTyapunov 函数 。 
2. 根据 Lyapunory 定理 1 模型 是 稳定 的 。 
换 句 话说 ， 由 非 线性 一 阶 微分 方程 组 (14.20) 的 系统 描述 的 连续 Hopfield 模 错 的 时 间 演 化 
找 表 状态 空间 中 的 一 条 罗 线 。 该 轨 线 找 出 能 量 (Iyapunov) 函 数 正 的 极 小 值 并 在 这 样 的 固定 点 
上 终止 。 从 式 (14.31) 也 要 泣 意 ， 仅 当 
囊 (9 -0 对 Hi 有) 
时 ， 导 数 旺 / 亚 变 为 零 。 因 此 可 以 进一步 写 出 
殖 < 0 。 除 在 一 个 固定 之 外 (4.34 
式 (14.34) 给 出 了 下 述 定理 的 基础 : 
Hopfield 网 络 的 (Lyapunov) 能 量 函 数据 是 时 间 的 单调 减 函 数 。 
此 ，Hopfield 网 络 是 全 局 渐 近 机 定 的 ; 吸引 子 固 定点 是 能 量 函 数 的 极 小 仁 ， 反 之 亦 然 。 
术 散 和 连续 Hopfield 模型 的 稳定 状态 之 间 的 关系 


Hopfield 网 络 可 以 用 连续 方式 或 离散 方式 运行 ,依赖 于 描述 神经 元 所 采用 的 借 型 。 连 续 
模型 的 运行 基于 前 面 描述 的 加 性 模型 。 另 一 方面 ， 离 散 模型 的 运行 基于 MeCnalloch-Pitts 模型 。 
通过 重新 定义 神经 元 的 输 和 人 -输出 关系 ， 很 容易 在 连续 Hopfield 模型 稳定 状态 和 相应 的 离 衣 
Hiopfieid 模型 的 稳定 状态 之 间 建 立 联系 ， 使 得 这 样 的 关系 满足 下 面 两 个 简化 特性 : 

1. 神经 元 的 输出 有 渐 近 值 



























































(14.35) 





2. 神经 元 激活 函数 的 中 点 在 原点 处 ， 表 示 为 
中 (0) = 0 《14.36) 
相应 地 ， 可 以 对 所 有 的 站 设 千 偏 置 1 为 零 。 
为 了 表示 连续 Hopfield 模型 的 能 量 函数 马 ， 人 允许 神经 元 有 自 反 回 路 。 另 一 方面 ， 离 艇 
Hopfieid 模 现 不 需要 自 反 回 路 。 因 此 ， 可 以 通过 在 两 种 模型 中 对 所 有 的 了 都 设置 zw =0 来 简 
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化 讨论 。 
根据 这 些 观察 ， 可 以 用 如 下 形式 重新 定义 式 (14.28) 给 出 的 连续 Hopfield 模型 的 能 量 函 
数 ; 





， 罗 
>Voxx + 和 414.37) 


由 式 (14.27) 定 义 反 两 数 中 《xz) 。 








， 站 -1 
nn 十 了 (xz) dx (14.38) 


有 效 14-11 中 显示 的 标准 形式 。 在 = 0 积分 值 为 鹤 ， 其 他 情况 其 值 为 正 。 翁 没 在 x% 接近 
+ 时 其 值 非常 大 。 但 是 ， 如 果 神 经 元 了 增益 @ 变 为 磊 穷 大 (例如 sigmoid 函数 的 非 线性 趋 于 
理想 的 葬 限 制 形式 )， 式 {14,38) 中 的 第 二 项 就 小 得 可 以 忽 户 ra 训 
略 不 记 了 。 人 在 限制 情 说 下 ， 对 所 有 的 /， 当 ww = 只 时 连续 ”08 

Hopfield 模型 的 极 大 、 极 小 值 变 成 和 离散 Hopfield 模型 中 的 
对 应 值 相等 。 后 一 情况 下 ， 能 量 (Lyapunov) 函 数 的 定义 简 
为 
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1 志 必 
已 =- 立 了 (14.39) 


其 中 第 7 个 神经 元 状态 为 = 1。 因 此， 我 们 得 出 结论， 
高 增益 的 、 连 续 的 和 确定 的 Hopfield 模型 仅 有 的 稳定 点 对 
应 于 离散 随机 Hopfield 模型 的 稳定 点 。 

然而 ， 当 每 一 个 神经 元 ) 有 很 大 但 是 有 限 的 增益 起。 图 不 1 积分 信和 (ax 的 图 下 
时 ， 我 们 发 现 式 (14.38) 右 端 第 二 项 对 连续 模型 的 能 芋 函 ” 

数 有 明显 的 贡献 。 特 别 ， 这 一 贡献 在 倍 近 定义 模型 状态 空间 的 超 立 方 体 的 所 有 而 、 边 利 角 点 
处 都 很 大 并 旦 为 芷 。 而 另 一 方面 ， 该 贡献 在 远离 曲面 的 点 处 又 小 得 可 以 忽略 。 因 此 ， 这 种 借 
型 能 量 函 数 的 最 大 值 在 角 点 处 ， 但 最 小 值 却 略 微 向 超 立 方 体 的 内 部 偏 移 (Hopteld,1984)。 

图 14-12 画 出 两 个 神经 元 的 连续 Hopield 模型 的 能 量 等 值 线 图 或 能 量 图 。 两 个 神经 元 的 
输出 定义 图 中 的 两 个 坐标 轴 。 图 14- 12 中 左下 角 和 右上 角 代 表 无 穷 增益 限制 情况 下 的 稳定 最 
小 值 ; 有 限 增益 情况 下 的 最 小 值 将 向 内 部 偏 移 。 流 向 固定 点 ( 即 稳定 最 小 值 ) 的 流 可 以 解释 为 
式 (14.28) 定 义 的 能 量 函 数 正 的 最 小 化 的 解 。 


离散 Hopfield 模型 作为 按 内 容 寻 址 存储 器 


Hopfield 网 络 作为 按 内 容 寻 址 存储 器 {content-addressabhie memory) 在 文献 中 吸引 了 人 们 巨大 
的 注意 。 在 这 一 应 用 领域 ， 我 们 预先 知道 网 络 的 固定 点 ， 它 们 对 应 被 存储 模式 。 但 是 ,产生 
期 望 中 岗 定 点 的 网 络 罕 触 权 值 是 未 知 的 ， 因 而 问题 在 于 如 何 确定 它们 。 按 内 容 寻 址 存储 器 的 
主要 功能 是 根据 模式 不 完整 或 有 噪声 的 表示 获取 存 销 在 存储 器 中 相应 模式 (项 )。 为 了 以 简洁 
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二 二 二 
~ 一 ~ 人 > > 下 


图 14-12 ”两 个 神经 元 的 双 稳 定 态 系统 的 能 基 等 值 线 图 。 纵 轴 和 横 轴 为 两 个 神经 

元 的 输出 。 稳 定 状态 位 于 左下 角 和 右上 角 ， 不 稳定 的 极点 位 于 另外 两 个 角 。 科 

头 表 未 状态 的 移动 。 移 动 一 般 不 垂直 于 能 基 的 等 值 线 图 。( 经 美国 国家 科学 院 多 

许 ， 摘自 械 工 Hopfeld，1984) 
方式 说 明 这 一 陈述 的 含义 ， 最 好 的 方法 就 是 引用 Hopfield 1982 年 的 论文 : 
假定 存储 在 存储 器 中 的 项 是 “H.A.Kramers 芭 CH, 克 annier Piysi Reo.60，252(1941) ”一 
个 普通 的 按 内 容 寻 址 存储 器 ， 根 据 足够 的 部 分 信息 能 检索 这 个 完整 的 存储 项 。 答 入 “人 
Wannier,《〈1941) 可 能 就 足够 了 。 理 想 的 存储 器 能 处 理 错误 并 且 甚 至 只 输入 “机 annier， 
(1941) "就 能 检索 这 一 参考 文献 。 
因此 ， 按 内 容 寻 址 存 鱼 器 的 一 个 重要 属性 就 是 在 给 出 存储 模式 的 信息 内 容 的 一 个 合理 子 
集 的 情况 下 检索 该 模式 的 能 力 。 此 外 ， 根 据 提供 的 线索 能 够 覆盖 不 一 致 的 信息 ， 在 这 种 意义 
下 按 内 容 寻 址 存储 是 可 以 纠 错 的 。 
控 内 容 寻 址 存储 器 (CAM) 的 本 质 嘴 映射 基本 存储 所 到 动态 系统 的 固定 点 (稳定 点 )x% 上 ， 
就 像 图 14-13 摘 绘 的 那样 。 在 数学 可 以 把 这 个 轴 射 表示 为 
避 ss 

的 形式 。 从 左 向 右 的 箭头 代表 编码 操作 ， 而 从 右 向 左 的 箭头 代 志 解码 操作 。 网 络 状态 空间 的 
吸引 子 固定 点 为 网 络 的 基本 记忆 或 做 原型 状态 。 假 设 现在 网 络 被 呈现 给 一 个 模式 ， 这 个 模式 
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包含 基本 记忆 的 部 分 但 足够 的 信息 。 那 么 我 们 可 以 将 该 特定 模式 表 示 为 状态 空间 中 的 起 点 ， 
原则 上 ， 倘 若 该 起 点 靠近 表示 待 检索 记忆 的 固定 点 ( 即 它 位 于 固定 点 的 吸引 仿 内 部 )， 则 系统 
应 该 随时 间 演 化 并 最 终 收 敛 于 记忆 状态 本 身 。 在 那个 点 上 全 部 的 记忆 由 网 络 牛 成 .结果 
Hopfield 网 络 有 再 现 (emergent) 的 性 质 ， 该 性 质 帮 助 它 检索 信息 和 处 理 错误 。 


















基本 记忆 空间 


存储 向 量 空间 


图 14-13 递归 网 络 实现 的 编码 - 解码 不 意图 


在 使 用 MeCulloeh and Pitts( 1943) 的 正规 神经 元 作为 基本 处 理 单元 的 Hopfield 模型 中 ， 每 
一 个 这 样 的 神经 元 具有 由 作用 其 上 的 诱导 局 部 域 所 决定 的 两 个 状态 。 神 经 元 i 的“ 开 ? 或 "点 
火 " 状 态 用 输出 值 xs = + 1 表示 。 而" 关 ?" 或 “静止 "状态 用 交 = -1 表示 。 因 此 对 由 个 神经 
元 构成 的 网 络 来 说 ， 网 络 状态 由 向 量 x= [zi 和,…,sr]7 定 义 。 由 于 “= + 上 1， 神 经 元 的 
状态 表示 1 比特 信息 ,而 六 xl 的 向 量 x 表 示 AN 比特 信息 的 一 进 制 字 。 

神经 元 ,/ 的 诱导 局 部 域 w 定义 为 



































-= 症 om 十 态 《14.40) 
其 中 必 是 额外 施加 在 神经 元 / 上 的 辣 定 太 此 ， 神 经 元 了 根据 确定 性 规则 
全 杞 > 0 
一 了 < 

















入 = 


修改 它 的 状态 5 
这 一 关系 可 以 改写 为 紧 号 形式 % = sgn[]， 其 中 吕 ! 是 符号 函数 。 如 果 ， 恰好 是 零 会 出 现 
什么 情况 ”在 这 里 采取 的 行动 可 能 是 非常 任意 的 。 例 如 ， 如 果 w = 0， 我 们 可 以 设置 w = +1。 
然而 ， 我 们 将 使 用 如 下 约定 : 如 果 w 是 零 ， 神 经 元 / 保持 它 原 有 状态 ， 不 管 它 是 开 还 是 关 。 就 
像 将 在 后 面 说 明 的 那样 ， 这 -- 假 定 的 显著 意义 在 于 作为 结果 的 流 图 表 是 对 称 的 。 
把 离散 Hopfield 网 络 作为 按 内 容 寻 址 存储 器 的 操作 有 两 个 阶段 ， 即 存储 阶段 和 俭 索 阶 
段 ， 如 下 面 说 明 的 那样 。 
上 春 储 阶段 。 假 设 我 们 希望 存储 -组 表示 为 15.1R= 1,2,…， 1 1 的 N 维 向 量 (二 进 制 字 )》 
。 我 们 称 这 H 个 向 量 为 基本 记忆 ， 表 示 被 网 络 存储 的 模式 。 令 已 ,表示 基本 记忆 总 的 
第 个 元 素 ， 其 中 类 j= b2，…，M 。 根 据 作 储 的 外 积 规则 ， 也 就 是 Hebb 学 习 的 基本 原则 的 
推广 ， 从 神经 元 ; 到 神经 元 的 芭 希 权 值 定义 为 

















形 经 坟 力 芝 _ _ | 





。 
由 = 才 215 (14.41) 


本 | 
使 用 1 作为 比例 常数 的 原因 尼 为 了 简化 信息 检索 的 数学 表述 。 也 要 注意 式 (14.41) 的 学 习 
规则 是 “" 单 射 "one shob) 计算。 在 Hopfield 网 络 正常 运行 中 ， 我 们 设置 
aa = 0 对 于 所 有 的 (14.42) 
这 意味 着 神经 元 没有 自 反 馈 。 令 多 表示 网 络 W x W 的 突击 权 值 短 阵 ， 用 由 作为 它 的 第 产 个 
元 素 。 从 而 我 们 可 以 把 式 (14.41) 和 式 (14.42) 用 和 抵 阵 形式 纽 合 为 如 下 的 等 式 : 


友 - 志 妆 和 和 -MI (14.43) 


其 中 己 生 表示 向 量 扎 和 它 自身 的 外 积 ， 而 工 表示 单位 怎 阵 。 从 这 一 突 触 权 值 集 / 权 值 矩阵 的 
定义 式 我 们 可 以 重新 确认 如 下 事实 ; 

*。 网 络 中 每 -神经 元 的 输出 都 反馈 到 所 有 的 其 他 神经 世上 _- 

。 网 络 中 没有 自 反 馈 ( 邑 wu =0)。 

。 网 络 权 值 矩阵 足 对 称 的， 表示 为 (参照 式 (H.210) 

WW” = 三 (14.44) 

2. 检索 阶段 。 在 检索 阶段 ， 一 个 称 为 探 针 (pmbe) 的 A 维 向 量 后 被 强加 于 Hopfield 网 
禾 作为 它 的 状态 。 探 针 向 星 的 元 素 为 + !。 它 典型 地 表征 网 络 中 基本 记忆 的 不 完整 或 噪声 形 
式 。 然 后 信息 检索 依照 动态 规则 进行 ， 在 该 规则 中 网 络 的 每 一 神经 元 随机 地 但 按 某 一 固定 
比率 检测 作用 在 其 上 的 族 导 局 部 域 w (包含 任意 非 零 偏 冒 六 )。 如 果 在 某 一 时 刻 w 大 于 零 。 
则 神经 元 7 将 切换 它 的 状态 到 + 1， 或 者 保持 在 该 状态 ， 如 果 已 经 是 + 上 的话 。 类 似 地 ， 如 
果 小 于 零 ， 则 神经 元 将 司 换 它 的 状态 到 - 1， 或 者 保持 在 该 状态 ， 如 果 已 经 是 - 1 的 话 。 
如 果 w 恰好 为 零 ， 则 不 管 是 开 还 是 关 ， 神 经 元 /都 将 保持 原 有 状态 。 因 此 ， 从 一 个 迭代 到 
另 一 个 和 迭代 的 状态 更 新 是 确定 的 ,但 是 选择 进行 更 新 操作 的 神经 元 则 是 随机 的 。 这 里 描述 的 
措 步 ( 串 行 ) 更 新 过 程 继续 直到 没有 任何 进一步 的 变化 可 以 报告 为 上 。 那 就 是 说 ， 用 控 针 向 量 
关 开 始 ， 最 终 网 络 生成 一 个 不 随时 间 改 变 的 状态 向 量 y， 它 的 等 个 元 素 都 满足 稳定 性 条 件 


， 
六 = sen( oo 112 (14.45) 
气 




































































或 者 其 年 阵 形式 
y 了 = sn(Wy+b) (14.46) 
其 中 凡是 网 络 突 触 权 值 矩阵 ，b 是 外 部 施加 的 偏 置 向 量 。 这 里 描述 的 稳定 性 条 件 也 称 为 对 
齐 (alignment) 条 件 。 满 足 条 件 的 状态 向 量 y 称 为 系统 状态 空间 的 稳定 状态 或 国定 点 。 因 此 我 
们 可 以 作 这 样 的 陈述 ， 当 检索 操作 异步 进行 时 ，Hopfield 网 络 将 肯定 收敛 于 一 稳定 状态 。 
表 14-2 提出 对 Hopfield 网 络 操作 包括 存储 阶段 和 检索 阶段 的 步骤 的 一 个 小 结 。 
表 14-2 “Hopfieid 模型 小 结 


1 学 习 。 令 5 ,下 ,5 检 示 已 知 六 维基 本 记忆 的 集合 。 使 用 外 积 规则 ( 即 Hebb 学 习 的 基本 原则 ?计算 网 络 的 窜 甬 权 
值 : 
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全 吕 二 7 
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{ 续 ) 
其 中 迎 为 从 神经 元; 到 神经 元 ， 的 突 触 权 值 “向 最 吕 的 元 素 等 于 + 上 1 一目 它们 粮 计 算出 ， 则 罕 撮 权 值 保皇 不 变 
2 . 初始化. 令 吕 mu 表 尖 出 现在 网 络 中 的 - -本 知 Y 输 入 向 最 { 探 针 ) 通过 设置 
0 = et 1 





初始 化 算法 ， 其 中 40) 是 神经 元 在 时间 n =0 时 的 状态 ， 多 wa 是 探 针 向 量 Su 的 第 了 个 撕 素 . 
3. 透 代 真 到 收 仇 。 很 据 如 下 规则 异步 地 { 即 随机 并 卫 每 次 一 个 地 ) 更 新 状态 向 量 xf n) 中 的 元 素 : 
， 
(+D = sa[ aa] = 2 
四 


重复 这 一 选 代 直 到 状态 疝 基 x 保持 椒 变 。 
4. 栓 出 。 令 Wet 表 拓 第 3 沙 计 算出 的 周 定 点 ( 稻 定 状态 )， 作 为 结果 的 网 络 输出 向 晤 > 为 
= oo 


第 1 步 总 店铺 阶段， 第 2 步 到 第 4 步 构成 检索 阶段 ， 
例 14.2 为 了 说 明 Hopfield 模型 的 下 项 行为 考虑 图 14- 14a 所 示 的 二 个 神经 元 的 网 络 。 
络 权 值 惩 阵 为 
| 0 -2 +2 
W = 站 2 0 - 
+2 -2 0 
为 它 满足 式 (14.42) 和 式 (]4.44) 的 条 件 ， 所 以 是 合法 的 ， 假定 施加 在 每 个 神经 元 上 的 篇 置 
为 零 。 由 于 网 络 中 有 三 个 神经 元 ， 所 以 竖 考 虑 的 可 能 状态 有 2 = 8 种 。 这 8 种 状态 中 ， 只 有 


(1 -1 1) 和 ( -1,1, - 切 这 两 种 状态 是 稳 定 的 ; 其 余 的 6 种 状态 都 是 不 稳定 的 。 我 们 说 这 两 
种 特 珠 状 态 是 稳定 的 是 因为 它们 都 满足 式 (14.46) 的 对 齐 条 件 。 对 状态 向 量 ( 生 , - 1,1)， 我 们 


有 
| 0 -2 +2jf+1 | 十 肥 
wy = 了 -2 0 -2 | 引 。 
+2 -2 0 + 工 十 禾 


+1 
sgn[Wy] = 加 y 


二 



































硬 限 制 这 - -结果 得 到 


英 似 地 ， 对 状态 向量 ( - 1.1, -1)， 我 们 有 
0 -2 +2f-1 -4 
-让 0 下 二 天 4 
32 -2 0 -4 
硬 限 制 这 一 结果 之 后 ， 得 到 
一 1 
et -| |-， 


因此 ， 这 丙种 状态 向 景 都 满足 对 齐 条 件 。 
此 外 ， 遵 从 表 14-2 小 结 的 姓 步 更 新 过 程 ， 我 们 得 到 图 和 4- 14b 所 摘 绘 的 流 。 这 个 流 图 展 
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稳定 状 次 





图 14- 4 
a)W=3 个 神经 元 的 Hopfield 网 络 结构 网 bb) 描绘 两 个 稳定 恋 和 网 络 流 的 疼 


示 关 于 网 络 中 直观 上 满足 条 件 的 两 个 稳定 状态 之 间 的 对 称 性 。 这 种 对 称 性 是 令 作 用 于 其 上 的 
诱导 局 部 域 恰好 为 零 的 神经 元 保留 在 原 有 状态 的 结果 。 [ 思 
图 14-14b 也 显示 出 如 果 图 14-14a 的 网 络 初始 状态 足 (1,1,0D 、( -1 - 11) 或 (1, -1 一 
1)， 那 么 在 一 次 选 代 之 后 它 将 收敛 于 稳定 状态 (1, - 1,1)。 如 果 初 始 状态 是 (- 1, -1 - 1)、 

《=-11,1) 或 (1,1 =- 1)， 则 它 将 收敛 于 第 二 个 稳定 状态 ( - 1,1,- 1)。 
因此 ， 网 络 有 两 个 基本 记忆 (1, - 1,1D) 和 ( - 1,1, - I) 表 征 这 两 个 稳定 状态 。 式 (14.43) 
的 应 用 产生 突 触 权 值 矩阵 


+1 5 L 00 
w- 革 -iv0+ 村 0 1 0 
+1 2 村: 汪 二 
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0 -2 +2 
上 
- 站- DO -> 


+2 -2 0 





它 和 图 14- 14a 所 示 的 突 触 权 值 符合 。 

通过 检验 图 14- 14b 的 流 图 ，Hopfield 网 络 的 纠 错 能 力 是 显而易见 的 ; 

1. 如 果 作 用 在 网 络 上 的 探 针 向 量 避 等 于 ( -1 -1 1)、(01,10 或 人 1, -1 -1)， 则 作 
为 结果 的 输出 呈 基 本 记忆 (1, - 1,1)。 每 个 这 样 的 换 针 的 值 表示 “个 和 存储 模式 相 比 的 单 
错误 。 

2. 如 果 欣 针 向 量 和 ww 等 于 (1 -TD 、(-1 -1 -1) 或 (~ 二 1)， 则 作为 结果 的 输出 
是 基本 记忆 (- 1,1, - 1])。 这 里 再 次 表明 ， 每 个 这 样 的 探 什 表示 “个 和 存储 模式 相 比 的 单 
错 滥 。 国 


伪 状 态 


就 像 式 (14.44) 指 出 的 那样 ， 离 散 Hopfield 网 络 的 权 值 矩 阵 W 是 对 称 的 。 因 此 网 的 特征 
值 都 是 实数 。 然 而 ， 当 开 很 大 的 时 候 特征 值 通常 是 退化 的 (degenerale)， 这 意味 普 有 几 个 特 
征 向 量 有 同样 的 特征 值 。 通 过 退化 特征 值 联系 的 几 个 特征 向 量 构成 了 一 个 子 空间 。 此 外 ,， 权 
值 阵 W 退化 特征 值 有 等 于 零 的 ， 这 种 情况 下 的 子 空间 叫做 零 空 间 。 零 空间 的 存在 是 由 于 
基本 记忆 的 数量 W 小 于 网 络 中 神经 元 数量 W 的 事实 。 零 空间 的 出 现 是 Hopfieid 网 络 的 内 在 
特性 。 

权 值 矩阵 允 的 特征 分 析 ， 使 得 我 们 对 把 离散 Hopfield 网 络 作为 按 内 容 寻 址 存储 器 持 下 
列 观点 (Aiyer et al. ,1990) : 

1 离散 Hopfield 网 络 将 探 针 向 量 投影 到 被 基本 沁 忆 向 量 扩张 成 的 子 空间 4 上 ， 从 这 种 意 
义 上 涪 ， 它 起 到 向 量 投影 器 的 作用 。 

2. 网 络 网 有 的 动力 学 把 结果 投影 向 量 驱 动 到 单位 超 立 方 体 的 能 晤 函数 最 小 的 一 个 角 点 
处 ， 

单位 超 立 方 体 是 六 维 的 。 扩 张 成 子 空间 的 辱 个 基本 记忆 向 量 组 成 由 单位 超 立 方 体 确 
定 的 角 点 表示 的 固定 点 (稳定 状态 ?的 集合 。 单 位 超 立 方 体 的 其 他 位 于 子 空间 必 内 部 或 附近 的 
角 点 是 潜在 伪 状 态 (spurious states) 的 所 在 位 置 ， 也 称 为 盆 吸 引子 (Amit,1989 )。 伪 状态 表示 
Hopfield 网 络 中 不 同 于 网 络 基 本 记忆 的 其 他 稳定 状态 。 

因此 ， 在 设计 作为 按 内 容 寻 址 存储 器 的 Hopfield 网 络 过 程 中 ， 我 们 面临 着 对 了 曙 个 矛盾 需求 
的 权衡 : (1) 需 要 在 状态 空间 中 保持 基本 记忆 向 量 作为 固定 点 ，(2) 希 望 有 少量 的 伪 状 态 。 
Hopfield 网 络 的 存 情 容量 

不 幸 的 是 ，Hopfield 网 络 的 基本 记忆 不 总 是 稳定 的 。 而 且 ， 可 能 出 现 由 伪 状 态 表 征 的 不 
同 于 基本 记忆 的 其 他 稳定 状态 。 这 两 个 现象 倾向 于 降低 作为 按 内 容 寻 扯 存储 器 的 Hopfield 网 
络 的 效率 。 在 这 里 我 们 探索 一 下 第 一 个 现象 。 

令 探 针 等 于 作用 于 网 络 上 的 基本 记忆 中 的 一 个 &。 然 后 ， 为 了 一 般 性 允许 使 用 自 反 馈 
并 设 定 零 储 置 ， 我 们 发 现 使 用 式 (14.41)， 则 神经 元 的 诱导 局 部 域 为 ; 
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站 


式 (14.47) 石 问 第 一 项 只 是 基本 记忆 号 的 第 7 个 元 素 ; 击 在 我 们 可 以 看 出 比例 因子 TY 为 什 
么 被 引入 式 (14.41) 中 突 触 权 值 好 的 定义 中 。 因 此 这 一 项 可 以 被 看 作 vw 戎 望 中 的 “信号 "成 
分 。 式 (14.47) 右 端 第 二 项 是 在 被 测 基本 记忆 吕 的 元 素 和 其 他 基本 记忆 号 .的 元 素 之 间 的 “ 串 
音 "(erosstalk) 的 结果 。 因而 这 第 二 项 可 以 被 看 作 w% 的 “噪声 "成 分 。 因 此 我 们 有 了 和 通信 理论 
中 典型 的 " 带 噪 声 信号 从 测 问题 "类 似 的 情景 (Haykin,1994b ) 。 

我 们 假设 基本 记忆 是 随机 的 和 作为 WN 个 Bemoulli 实验 序列 和 后 成 的 。 那 么 式 (14.47) 中 
的 噪声 项 构成 N(MW - ID) 个 取 值 为 + !1 的 独立 随机 变量 的 求 和 除 以 NW。 这 正 是 使 用 概率 论 中 
的 中 心 极限 定理 的 情形 。 中 心 极限 定理 陈述 如 下 (Feller, 1968) 

令 1 和 | 为 同 分 布 的 互相 独立 随机 变 莉 序列 。 殷 证 马 具有 均值 上 和 方差 吐 ， 令 荆 = 品 十 
瑟 +… 二 是 。 那 么 当 严 趋向 无 限时 ， 求 和 味 机 变量 了 的 概率 分 布 趋 于 Canss 分 布 。 


因此 ， 遂 过 在 式 (14.47) 中 噪声 项 上 采用 中 心 极限 定理 ， 我 们 发 现 噪 声 是 渐 近 的 Gauss 分 
布 。 构成 等 式 中 噪声 项 的 这 W( W - 日 个 随机 变 莉 中 的 每 一 个 都 有 均值 0 和 方差 VIP 。 因 而 ， 
推 知 高 斯 分 布 的 统计 学 仁 质 为 

， 均值 零 

”。 方 益 等 于 (M -LAN 

信号 成 分 总 ,等 于 值 + 1 或 - 1 的 概率 相等 ， 并 因此 有 均值 0 和 方差 1。 所 纵 信 嗓 比 
(signal-to-noise ratio) 定 义 为 


信和 号 方差 1 久 
p = 陈 音 和 加 = TM TD 一 证 对 于 很 大 的 MW 《14.48) 


基本 记忆 所 的 成 分 当 且 仅 当 信 品 比 p 高 的 时 候 才 是 稳定 的 。 现 在 ， 基 本 记忆 的 数量 W 提供 
直接 度量 网 络 存储 容量 (siorage capacity) 的 方法 。 因 此 ， 只 旨 网 络 存储 容量 不 超载 ， 也 就 是 说 
基本 记忆 数量 衣 比 网 络 中 神经 元 数量 w 要 小 ,由 式 (14.48) 可 得 某 本 记 亿 从 概率 意义 上 足 稳 
定 的 。 


信 噪 比 的 倒数 ， 也 就 是 




















= (14.49) 


称 为 负载 参数 《load parameter)。 统 计 物 理学 的 考虑 显示 出 Hopfield 网 络 的 记忆 检索 的 质量 随 
负载 参数 c 的 增加 而 恶化 ， 并 且 在 临界 值 w = 0.14 处 而 省 (Amit, 1989; Miiller and Reinhardt， 
1990)。 这 一 临界 值 与 Hopfield(1982) 的 估计 相符 ， 其 中 作为 计算 机 模拟 的 结果 报告 0.15 w 个 
状态 可 以 在 错误 变 得 严重 之 前 同时 被 检索 出 。 

由 于 ac. =0.14， 我 们 从 式 (14.48) 发 现 信 噪 比 的 临界 值 o. ~ 7， 或 者 等 价 的 8.45 分 贝 。 
至 于 信 噪 比 低 于 这 一 临 兰 值 ， 则 记忆 检索 崩溃 。 

临界 值 Mg = ay=0.M4N (14.50) 
定义 检索 的 容错 存储 容量 。 为 了 确定 不 带 错误 的 存储 容量 ， 我 们 必须 使 用 下 而 描述 的 错误 概 
率 定义 的 更 严格 准则 。 

令 探 针 &oue = 总 的 第 7 位 为 符号 1， 也 就 是 总 , = 1。 那 么 检索 时 第 7 位 出 错 的 条 件 慨 率 
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由 图 14-15 中 的 阴影 区 域 定义 。 这 一 同 线 下 的 其 余 区 域 为 探 针 第 7 位 正确 恢复 的 条 件 概率 。 
使 用 熟知 的 高 斯 分 布 公式 ， 后 一 条 件 概率 由 下 式 给 出 : 


Pa >015 =+D = 遍 [ 沁 包 二 六 -jw (14.51) 


由 于 包 ., 置 为 +1， 并 间 式 (14,47) 中 喉 占 项 的 均值 等 于 零 ， 由 此 推出 随机 变量 Y 的 均值 为 
呈 = 1, 方 盖 为 史 = (M -1)/Y。 从 通常 用 于 涉及 高 斯 分 布 的 计算 的 误差 函数 定义 ， 我 们 有 
ert(y) = ee 《14,52) 





























y 为 定义 积分 上 限 的 变 显 。 现 在 通过 误差 函数 把 式 (14.51) 改 写成 
二 
Po >0IS =+1) = 五 ie (14.53) 


其 中 p 是 式 (14.48) 定 义 的 信 唉 比 ， 我 们 可 以 简化 正确 恢复 基本 记忆 总 第 7 位 的 条 件 概率 的 表 
达 式 .每 个 基本 记忆 包含 n 位 。 同时， 基本 记忆 通常 是 等 概率 的 。 因 此 稳定 模式 的 概率 定 
义 为 





Ps = (P(D >01 有 =+J)” (14.54) 
我 们 可 以 使 用 这 一 委 率 来 构成 Hopfield 网 络 容 量 的 袁 达 式 。 具 体 地 ， 我 们 定义 几乎 不 带 错误 
的 奇 储 容量 凡 。. 作 为 网 络 中 能 够 存储 的 最 大 基本 记忆 数量 ， 并 旦 强调 它们 中 的 绝 大 部 分 能 
被 正确 检索 。 在 习题 14.8 中 证 明 由 这 个 存储 容量 的 定义 得 到 公式 


1 











(14.55) 


一 ng 





其 中 loge 表示 自然 对 数 。 








图 14-15 位 出 错 的 条 件 概率 ， 假 设 神经 元 1 的 诱导 局 部 城 g 为 高 斯 分 布 
概率 密度 函数 态 ( 睛 ) 的 二 标 了 表示 将 机 变 量 ，* 表示 它 的 实现 


图 14-16 画 出 式 (14,.50) 定 义 的 带 错 肖 存 储 容 量 和 式 (14.55) 定 义 的 几乎 不 带 错误 存储 容 
量 两 者 对 于 网 络 大 小 W 的 关系 图 形 。 从 沪 图 中 我 们 广 意 以 下 两 点 : 

。 Hopfield 网 络 的 存储 容量 本 质 上 与 网 络 大 小 克成 线性 关系 。 

。 Hopfield 网 络 的 主要 局 限 在 于 ， 为 了 基本 记忆 的 可 恢复 性 ， 它 的 存储 容量 必须 维持 很 


人 小。 
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图 14-16 Hopfield 网 络 规模 和 它 的 两 种 网 络 容量 的 关系 网 :- 
带 错误 和 几乎 不 带 错 误 的 
14.8 计算 机 实验 I 


这 一 节 中 我 们 用 计算 机 实验 来 说 明 作 为 按 内 容 寻 址 存储 的 离散 Hopfeld 网 络 的 性 能 。 实 | 吧 | 
验 中 使 用 的 网 络 包含 N = i20 个 神经 元 ， 因 此 有 和 - N = 12 280 个 突 甬 权 值 。 它 被 训练 用 于 





恢复 








划 -17 中 的 8 个 数字 的 黑 








图 样 有 120 个 象 素 ( 图 





白 图 样 ， 每 个 元 素 ) 并 特别 设计 以 产生 








良好 的 性 能 (Lippmann,1987 ) 。 存 阿 络 的 输入 中 设 定 用 值 + 1 表示 黑 象 素 ，- 1 表示 白 象 素 。 











图 





14-17 中 的 8 个 图 样 被 用 作 基本 记 所 使 用 式 (14.43) 生 





在 Hopfield 网络 的 存储 (学 习 ) 阶 段 ， 
成 突 拥 权 值 定 阵 W。 网络 操作 的 检索 阶段 像 表 14- 2 中 说 明 的 那样 异步 进行 。 


在 实验 恢复 部 分 的 第 一 阶段 ， 基 本 记忆 被 提交 给 网 络 ， 检 验 从 罕 触 权 值 矩阵 存储 的 信 


息 中 正确 依 复 它们 的 能 力 ， 每 一 种 情况 下 ， 希 望 得 到 的 图 样 都 在 一 次 迭代 之 后 由 网 络 生 


成 了 ， 
下 一 步 ， 为 了 验证 Hopfield 


+1 到 -1 反 转 每 一 个 象 素 ， 并 反 过 来 进行 ， 这 样 随 机 扭 
个 被 破坏 的 图 样 作为 网 络 的 探 针 。 对 数字 3 的 实验 结果 如 


字 3 的 被 破坏 版 本 ， 也 就 是 在 时 
次 、25 次 、30 玫 和 35 次 迁 代 之 


我 们 看 到 网 络 和 输出 和 数字 3 的 类 同 之 处 逐步 提高 - 


数字 3 的 准确 形式 。 


网 络 的 纠 错 能 力 ， 通 过 使 用 0.25 的 概率 随机 地 和 独立 地 从 

一 个 感 兴趣 的 图 样 ， 然 后 使 用 这 【55 

图 14- 18 所 示 。 图 中 上 部 分 表示 数 

刻 堆 作用 在 网 络 上 的 图 样 。 网 络 在 5 次 、10 次 、15 次 、2 

后 生成 的 图 样 在 图 中 其 余部 分 给 出 。 随 闭 迭 代 次 数 的 增加 ， 
事实 上 ， 在 35 次 迭代 之 后 网 络 已 收敛 在 






































理论 上 对 每 个 被 破坏 图 样 
以 检索 所 需 迭 代数 量 了 
索 所 需 选 代数 量 如 下 : 








均值 为 39。 在 我 们 的 实验 





为 hapfeld 网 络 中 有 120 个 
对 不 


神经 元 的 四 分 之 一 改变 状态 ， 所 
同 图 样 从 它们 被 破坏 形式 进行 检 



























































图 14-17 用 于 Hepfad 网 络 计算 机 实验 的 (人 工 ) 图 样 集 
损坏 的 
面 
严 国 
15 
30 


图 id-18 损坏 图 样 3 的 正确 焦 复 
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图 内 检索 所 寅 图 样 数量 
0 允 4 
答 
2 和] 
3 3 
4 和 
百 37 
“村 32 
9 236 





检索 所 需 选 代 次 数 在 8 个 图 样 上 平均 所 得 平均 值 大 约 是 31， 这 表明 Hopfield 网 络 像 预 期 【ea 
的 那样 运转 。 

Hopfield 网 络 固有 的 问题 出 现在 一 个 基本 记忆 的 被 破坏 版 本 提交 给 网 络 的 时 候 ， 然 后 随 
着 网 络 的 运行 收 和 敛 在 一 个 错误 的 基本 记 亿 上 。 这 一 切 在 图 14-19 中 说 明 ; 其 中 提交 给 爽 络 的 
是 被 玻 坏 图 样 “2"， 但 是 在 47 次 迁 代 之 后 网 络 收 全 在 基本 记忆 “6” 上 了 。 


本 
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图 14- 19 损坏 图 样 2 的 错误 恢复 


就 像 前 面 提 到 的 那样 ， 在 Hopfield 网 络 中 还 出 现 另 外 一 个 问题 ; 伪 状 态 的 存在 。 图 14- 
20( 视 为 14x8 的 网 络 状 态 矩 阵 ) 给 出 在 43 097 次 对 随机 选择 的 数字 按 0.25 的 概率 杉 转 1 位 被 
破坏 的 检验 中 发 现 的 108 种 盆 吸 引子 。 伪 状态 可 以 分 组 如 下 (Amit,1989 ) ; 
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1 反 基 本 记忆 。 这些 伪 状态 是 网 络 基本 记忆 的 反 转 ( 即 负 的 ) 版 本 ; 例如 ， 14-20 
中 位 置 1x 1 处 的 状态 ， 它 表示 图 14- 17 中 数字 6 的 负数 。 六 汪 全 坟 让 机 站 注意 
能 量 函 数 吾 在 神 名 7 态 反 转 的 时 候 保持 它 的 值 不 变 ， 从 这 种 意义 上 说 它 是 对 称 的 ( 即 对 于 
所 有 的 i， 状 态 二 用- z 蔡 换 )。 因 此 ， 如 果 基 本 记忆 护 对 应 能 量 等 值 线 的 某 … 特定 局 部 极 
小 值 ， 人 如 果 被 焦 复 模式 的 所 有 信息 位 都 被 反 转 的 话 ， 也 就 是 如 果 
可 以 发 现 那些 特定 的 位 即 设计 为 - 1 的 “符号 "位 被 + ] 替换 的 话 ， 则 这 一 符号 反 转 不 会 给 信 
息 恢 复 带 来 问题 。 

2. 混合 状态 。 混 合 (mixhre) 伪 状态 是 奇数 个 被 存储 模式 的 线性 组 合 。 例 如 ， 考 虑 状态 

站 = sgn(Ss + 外， + 各 ) 

这 是 一 个 二 混合 盆 状 态 。 它 由 三 个 基本 记忆 总 、 扎 和 入 通 过 多 数 诛 则 形成 的 。 对 大 型 网 络 ， 
这 样 的 状态 大 满足 式 (14.45) 的 稳定 条 件 的 。 图 14-20 中 第 6 行 第 4 列 位 置 的 图 样 代表 一 个 由 
以 下 基本 记忆 组 成 的 三 混合 伪 状 态 : 品 = 负 的 数字 1， 名 = 数字 4, 操 = 数 字 9。 

3. 旋转 玻璃 状态 。 这 种 伪 状 态 这 样 命名 与 统计 力学 的 旋转 玻璃 模型 类 似 。 旋 转 残 璃 状 
态 出 没有 和 网 络 中 基本 记忆 相互 关联 的 能 量 等 值 线 的 局 部 最 小 值 定义 ， 例 如， 参看 图 14-20 
中 第 ? 行 第 6 列 处 的 状态 。 


14.9 Cohen-Grossberg 定理 


在 Cohen-Grossberg(1983) ， 给 出 评价 由 如 下 联 立 非 线性 微分 方程 组 描述 的 一 类 神经 网 络 
的 稳定 性 的 一 般 原 则 : 



































有 =- ta)[aCo) - 袜 cz) = (14.56) 

根据 Cohen-Grmossberg 年 和 ， 这 美神 经 网 络 容许 定义 一 个 ELyapunov 本 数 (看 习题 14.13) 
去 立 smtoeas ) - 2 玉 OD9w CAN) e (14.57) 
其 中 (0 = 是 (0D) (14.58) 








为 了 使 式 (14.57) 的 定义 有 效 ， 需 要 下 面条 件 成 立 : 
1. 网 络 的 突 触 权 值 对 称 : 


= (14.59) 
2.a( 心 ) 满 足 非 负 性 条 件 : 
本 (本 ) 总 0 (14.60) 
3. 非 线 性 输入 - 输出 函数 满足 单调 性 条 件 ， 
凶 (5) = 天 wo) > 10 (14.6T) 


现在 ， 我 们 可 以 正式 地 陈述 Cohen-Grmossberg 定理 : 


各 果 非 线性 微分 方程 组 (14.56) 满足 对 称 性 、 非 负 性 和 单调 性 ， 则 由 式 (14.57) 描 述 的 
了 yapamoy 函数 召 满 足 条 件 


瑾 -0 


在 














[到 ] 








701 














了 天 


514 _ _ _ _ 喜 14 偶 





一 且 Lyapunov 函数 王 的 基本 属性 具备 ， 系 统 的 全 局 稳定 性 从 Lyapunoy 定理 1 推出 。 
Hopfield 模型 作为 Cohen-Grossberg 定理 的 特例 


对 一 个 连续 的 Hopfield 模型 ， 通 过 比较 方程 组 (14,56) 和 方程 组 (14,20)， 我 们 可 以 得 到 
Hopfieid 模型 和 Cohen-Grossbe 定 型 之 间 的 对 应 关系 ， 这 种 关系 如 表 14-3 所 示 。 在 式 (14.57) 
中 运用 此 表 ， 和 连续 的 Hopfield 模型 的 Lyapunoy 函数 


已 =- 瑟 它 蚂 awe ) 四 (mw) + 2 全- 中 g 《an) 血 (14.62) 


其 中 非 线性 激活 函数 wj 人 ) 直 式 (14， 23) 定 义 。 
接 下 来 ， 我 们 得 到 如 下 的 观察 结果 : 
1. 人 () = 和 


2 和 = 站 二 = 和 


3 站 gp( = 站 必 = 下 人 (0 杰 
从 基本 上 说 ， 关 系 式 2 和 3 通过 应 用 “= pg(e) 得 到 。 这 样 ， 在 式 (14.62) 的 Lyapunov 函数 中 
运用 这 些 观察 就 可 以 得 到 和 我 们 早先 描述 的 相同 的 结果 ， 参 看 式 (14.28)。 然 而 ， 尽 答 中 (o) 

必须 是 输入 "的 非 减 函数 ， 为 使 式 (14.62) 撒 述 的 通用 Lyapunov 函数 成 立 ， 并 不 需要 m(?) 是 

可 逆 的 。 

Cohen-Grossbe 节 定理 是 有 广泛 应 用 的 神经 动力 学 的 一 个 基本 原理 。 在 下 一 节 我 们 考虑 这 
个 重要 定理 的 另 一 个 应 计 。 

囊 14.3 ”Coher-Grossberg 定理 和 Hopfield 模型 的 对 应 关系 








Cohen-Gmossherg 定理 Hopfield 模型 
因 9 

(人 1 

再 { 想 ) 一 《7 有 + 下 
让 一 区 

Ce) un) 





14.10 盒 中 脑 状态 模型 


在 这 一 节 中 ， 我 们 通过 学 习 盒 中 脑 状 态 (brain-state-in-a-box,BSB ) 模 型 来 继续 联想 记忆 的 
神经 动力 学 的 分 析 - 该 模型 首先 由 Anderson et al.(1977) 描 述 。BSB 模型 基本 上 是 一 个 带 福 度 
限制 的 正 反 馈 系 统 ， 该 模型 是 由 一 组 反锁 隔 自身 的 高 度 互 连 的 神经 元 组 成 。 模 型 用 内 置 的 正 
反馈 来 放大 输入 模式 ， 直 到 异型 中 的 所 有 神经 元 和 饱和。 这样，BSB 模型 可 以 看 作 一 个 分 类 
器 ， 在 该 分 类 器 中 ， 给 定 一 个 模拟 输 和 人 模式， 产生 一 个 由 模型 稳定 状态 描述 的 数字 表示 。 

用 网 表示 对 称 权 基 短 孟 ， 该 答 阵 的 最 大 特征 值 为 正 实数 。 用 x(0) 表 示 模 型 的 初始 状态 
人 向量， 和 找 表 输 人 激活 模式 。 假定 模型 中 有 N 个 神经 元 。 模 型 的 状态 向 量 是 六 维 的 ， 风 是 
六 x N 算 阵 。BSB 算法 由 下 面 两 个 方程 完全 定义 : 

fn) = xz) +PWWXCn) (14.63) 
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xnt1l) = Ho)) (14.64) 
其 中 B 尾 一 个 称 为 反馈 因子 的 正 的 小 常数 ，x(m) 是 异型 在 时 刻 ”的 状态 向 量 。 图 14-21a 显 
示 式 (14,63) 和 式 (14.64) 的 联合 诬 图 。 方 杠 好 代表 一 个 单 层 线性 神经 网 络 ， 如 图 14-21b 所 
示 。 涩 活 国 数 是 一 个 作用 在 %(n) 上 的 分 段 线性 函数 ，j (na) 是 向 量 y(n) 的 第 /个 分 量 ， 
如 下 所 示 ( 看 图 14-22) 





















































+1 当 芒 (ma) > +1 
(n+l=gyfa) = 当 -1<7(z) 二 +1 《14.65)》 
-1 当 区 (nz) <-1 
式 (14.65) 限 制 BSB 异型 的 状态 向 量 处 于 中 心 在 原点 的 一 个 六 维 单 位 立方 体 中 。 


反馈 因子 单位 焉 退 扣 


0 
输 田 


xz 十 拉 





权利 抵 阵 非 线性 函数 0 
中 
图 14-21 
a 僵 中 脑 状 态 (BSB) 模 型 棋 图 “) 权 值 短 阵 W 表示 的 线性 联想 器 的 信号 流 图 
算法 如 下 进行 : 一 个 激活 模式 x(0) 性 


作为 一 个 初始 状态 向 量 输入 BSB 模型 ， 式 
414.63) 用 来 计算 向 量 Y(0)， 式 (14.64) 用 
来 截断 y(0) ， 获 得 更 新 状态 向 量 x(1)。 
接着 ，x(1) 通 过 (14.63) 和 (14.64) 循 环 得 
到 x(2)。 这 个 过 程 一 赴 重 复 直 到 BSB 模 
型 达到 一 个 稳定 状态 ， 该 状态 代表 超 立 方 
体 的 一 个 角 点 。 直 觉 上 ，BSB 模型 的 正 反 
合 引 起 初始 状态 向 量 x(0) 的 Buctid 长 度 
( 范 数 ) 随 适 代 次 数 的 增加 而 增加 ， 直 到 它 
撞 到 盒子 (单位 超 立 方 体 ) 的 墙 上 ， 然 后 顺 
着 墙 滑行 ， 最 终 停 在 盒子 的 一 个 稳定 角 点 
上 ,在 这 里 它 继续 “推进 " 却 不 能 脱离 盒子 
《Kawamoto and Anderson 1985)， 这 就 是 该 
模型 名 字 的 由 来 。 图 14-22 ”8BSB 模型 使 用 的 分 段 线性 函数 





区 











BSB 模型 的 Lyapunov 子 数 


重新 定义 BSB 模 型 可 以 作为 由 式 (14.16) 描 述 的 神经 动力 学 模型 的 一 个 特例 ( Grossberg， 
1990)。 为 了 看 到 这 一 点 ， 首 先 以 下 述 形式 重 写 由 式 (14.63) 和 (14.64) 描 述 的 BSB 算法 的 第 了 
个 组 成 部 分 : 
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ant 人 呈 at 12. (14.66) 
呈 
系数 or 让 


cf = Bo (14.67) 
定义 ， 其 中 及 为 Kronecher 8 国 数 ， 仅 当 六 = 计时 为 1， 其余 情 况 为 0; 让 是 权 挎 阵 多 的 第 郑 
个 元 素 。 式 (14,66) 是 离散 的 时 间 形 式 。 为 了 进一步 处 理 ， 重 新 用 连续 时 间 形 式 写 出 它 的 公 
式 
有 (9 =- 59 4 民 袜 ss0) = .2 (14.68) 
其 中 偏 置 才 对 所 有 的 7 都 为 0- 然而 ， 为 了 应 用 Cohen-Grossberg 定理 ， 必 须 进 一 步 把 式 
《14.68) 转 换 成 加 性 模型 的 形式 。 我 们 可 以 通过 引入 一 组 新 变量 
世人) = oa(D (14.69) 


来 做 到 这 点 。 然 后 ， 通 过 式 (14.67) 中 上 沁 的 定义 ， 发 现 








5( = ooifD (14.70) 
相应 地 ， 重 置式 (14.68) 的 借 型 为 等 价 形 蕊 
和 

名 0 = 一 台 ( 旨 上 + 。 Co = 2 (14.71) 


现在 ， 我 们 准备 把 Cohen-Grossberg 定理 应 用 到 BSB 模型 上 。 遂 过 比较 式 (14.71) 和 
(14.56)， 得 到 如 表 14-4 所 示 的 BSB 模型 和 Cohen-Grossberg 定理 的 对 应 关系 。 因 此 ， 把 表 
14-4 的 结果 用 于 式 (14.57)， 就 得 到 BSB 模型 的 Lyapunoy 丽 数 

如 =-- 冯 忆 习 seto)e0o0 + 玫 (oa (4.72) 


其 中 W tp)》 昨 sigmoid 函数 8(o) 对 它 的 参数 的 一 阶 导数 。 最 后 ， 将 式 (14.65)，(14.67) 和 
(14.69) 的 定义 代入 式 (14.72)， 就 能 用 原始 状态 向 量 定义 BSB 模型 的 Lyapunov 函数 如 下 : 








区 
已 =-- 生 2 oon =- 且 erwx (4.73) 
所 误 
表 14-4 Cohen-Grossberg 定理 和 BSB 模型 的 对 应 关系 
Cober Goashekg 定理 BSB 模 型 
(6 工 
Bu) - 
总 一 宇 
型 人) 全 (四 





在 14.7 节 中 对 Hopfield 网 络 Lyapunov 函数 的 估计 ， 假 定 模型 的 非 线性 sigaoid 疼 数 的 赣 
的 导数 存在 ， 此 条 件 是 通过 用 一 个 双 曲 线 正切 函数 来 满足 的 。 相 反 . 在 BS8 模型 中 ， 当 第 / 
个 神经 元 的 状态 变量 是 + 1 或 - 1 时 ， 这 个 条 件 并 不 满足 。 尽 管 如 此 ，BSB 模型 的 Lyapunov 
函数 能 通过 Cohen- Grossberg 定理 来 估计 ， 从 而 清楚 地 表明 这 个 重要 定理 可 以 普遍 应 用 。 
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BSB 模型 动力 学 


在 由 Golden( 1986) 进 行 的 直接 分 怕 沾 ， 说 表 BSB 模型 实际 是 一 个 梯度 下降 算 法 ， 使 得 由 
式 (14,73) 所 定义 的 能 量 函 数 已 达到 最 小 。 然 而 BSB 模型 的 这 个 重要 性 质 要 假设 权 值 矩阵 允 
满足 下 面 阿 个 条 件 ; 

。 权 值 矩阵 妈 是 对 称 的 ， 即 好 = Wr。 

” 权 值 息 阵 W 足 半 正定 的 ; 也 就 是 说 ， 关 于 闪 的 特征 值 ， 我 们 有 xmz0， 共 中 xuw 是 

更 的 最 小 特征 值 。 
这 样 ， 当 人 在 时 间 + 1 时 的 状态 向 晤 Ka + 1) 与 在 时 间 n 的 状态 癌 量 xm) 不 同时 ，BSB 模型 
的 能 量 函 数 二 随 "( 选 代 次 数 ) 的 增加 而 减 小 。 虽 进一步， 能 基 函 数 忆 的 最 小 点 定义 RSB 模 
型 的 平衡 状态 ， 模 型 由 
XCn +1L) = X( 严 ) 
表征 。 换 名 话 说 ， 像 Hopfield 模型 一 样 ，BSB 模型 是 - .个 能 量 最 小 化 网 络 。 

BSB 模型 的 平衡 状态 出 单位 超 立 方 体 的 特定 的 角 点 利 它 的 原点 定义 。 在 后 一 种 情况 (在 
原点 )， 状 态 向 量 的 任何 波动 ， 无 论 是 多 么 小 ， 都 被 模型 中 的 正 反馈 放大 ， 因 此 引起 模型 从 
诛 点 向 稳 定 状态 漂移 ; 换 杀 话说 ， 原 点 是 一 个 鞍点 。 对 超 立 方 体 来 说 ， 要 使 它 的 每 个 角 点 作 
为 BSB 模 地 的 纤 衡 状态 ， 权 值 矩 阵 克 必须 满足 第 二 个 条 件 (Greenbexg 1988)， 

* 权 和 撼 阵 克 是 对 角 优 势 的 (dorninant) ， 其 含义 是 

让 世 密 1 姓 1 对 所 有 的 了 = 1,2，… 六 《14.74) 


中 节 是 外 的 第 六 个 元 素 。 

为 了 使 平衡 状态 x 稳定， 也 就 是 为 了 使 单位 超 立 广 体 的 一 个 特定 角 是 一 个 岗 定 点 吸引 子 
(attraetor) ， 在 单位 立方 体 中 必须 有 一 个 吸引 盆 NCxz)， 使 得 对 (xz) 中 的 所 有 初始 状态 向 量 
Kx(0) ，BSB 模型 都 收敛 于 x。 为 了 使 单位 超 立方 体 的 每 一 个 角 点 是 一 个 可 能 的 点 吸引 子 ， 权 
值 矩 阵 必须 满足 第 四 个 条 件 (Creeuberg，1988) ; 

*。 权 和 矩阵 网 是 强 对 角 优势 的 ， 表 示 为 
二 袜 211+a 对 于 = 2 (14.75) 
其 中 是 一 个 正 的 常数 。 
这 里 讨论 的 重点 是 : 如 果 BSB 模型 的 权 值 矩阵 W 只 是 对 称 的 和 正 半 定 的 ， 单 位 立方 体 
中 只 有 一 些 ( 不 是 所 有 ) 角 点 是 点 吸引 子 。 为 了 使 单位 立方 体 中 的 所 有 角 点 是 潜在 的 点 吸引 
子 ， 权 和 玫 阵 W 也 必须 满足 式 (14.75) ，(14.75) 当 然 编 含 式 (14.74)。 


聚 类 


BSB 模型 的 一 个 香 然 应 用 是 窗 类 。 这 是 因为 单位 超 立 方 体 的 梅 定 角 点 作为 在 吸引 贫 的 点 
吸引 子 ， 会 把 状态 空间 划分 为 相应 的 明确 定义 的 区 域 。 因 此 ，BSB 模型 可 以 用 作 一 种 无 监督 
的 聚 类 算法 ， 其 中 单位 超 立 方 体 的 每 一 个 稳定 角 点 代表 相关 数据 的 一 个 “ 聚 类 "。 由 正 反馈 所 
提供 的 身 放 大 (符合 在 第 8 章 描述 的 自 组 织 规 则 1) 是 聚 类 性 质 的 一 个 重要 成 分 。 

Anderson et al《1990 b) 朱 述 用 BSB 模型 聚 类 从 而 识别 从 不 同 发 射 器 发 射 的 雷达 信和 号。 在 
这 个 应 用 中 ， 作 为 BSB 模型 运行 基础 的 权 值 矩阵 见 用 第 2 章 描述 的 带 误差 修正 学 习 的 线性 
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联想 器 (联想 记忆 ) 进 行 学 习 。 特 别 则 ， 假 设 信 息 用 一 组 天 个 训练 向 基 表 示 ， 这 些 向 量 问 它 
们 自己 的 联系 如 下 : 





中 (14.76) 
以 随机 方式 选 定 训练 向 量 x+:。 权 值 惩 阵 好 按照 误差 修正 算法 (人 参看 习题 13.9) 
AW = TO - Wxi)x (14.77) 
增加 ， 其 中 站 是 学 习 率 参数 。 学 习 刺 激 集 x ,又 ，…sgx 的 目的 是 使 线性 联想 器 工作 如 下 : 
We = (14.78) 


式 (14.77) 措 述 的 误差 修正 算法 在 最 小 均 方 澡 差 的 意义 下 接近 式 (14.78) 的 理想 条 件 。 这 个 学 
习 过 程 的 最 终 效果 是 使 线性 联想 器 产生 一 组 特征 向 量 (由 训练 向 基 定 义 ) ， 其 特征 值 等 于 1。 
为 了 实施 雷达 ( 们 号 ) 聚 类 ，BSB 模型 用 带 误差 修正 学 习 的 线性 联想 器 来 构造 权 和 矩阵 凤 ， 
并 完成 下 面 的 计算 (Anderson et al. ，1990) : 
xtn+1l) = yyxn)+BWxn) +sx(0)) (14.79) 
此 式 和 式 (14.63) 和 工 (14.64) 所 描述 的 BSB 算法 有 细微 的 差别 。 差 别 在 机 方面 ; 
，。 在 第 一 项 yx(z) 中 的 衰减 常数 y 使 当前 状 肉 轻微 吉 减 。 假 定 Y 是 一 个 比 1 小 的 正常 
数 ， 误 盖 最终 误 减 到 0。 
，” 第 三 项 sx(0) 是 为 了 保持 初始 状态 向 量 x(0) 一 直 出现 ; 它 有 限制 BSB 模型 的 可 能 状 
态 的 作用 。 
BSB 模型 的 重复 适 代 导致 由 具有 最 大 特征 值 的 权 值 怎 阵 克 的 特征 向 量 所 支配 的 行动 。 
此 ， 线 性 联想 器 学 会 了 向 量 z , 加 ,xx 。BSB 模型 的 聚 类 能 力 来 源 于 : 信 身 相关 的 特征 
向 量 与 大 的 特征 值 相对 应 ， 在 模型 中 由 正 反馈 进行 放大 ， 因 此 在 大 量 选 代 之 后 便 支 配 模型 的 
状态 。 另 一 方面 ， 噪 声 相关 的 特征 向 基 经 常 与 小 的 特征 值 相对 应 。 央 此 ,对 BSB 模 再 的 状 
态 有 一 个 逐渐 减 小 的 影响 ， 只 要 接受 的 信 噪 比 足 够 高 
在 一 个 雷达 监 规 环境 中 ， 环 境 中 发 射 器 运行 的 细节 描述 是 未 知 的。 在 儿 分 之 一 秒 内 接受 
成 千 上 万 的 崇 达 脉冲 进行 处 理 。 因 此 不 缺 数 据 ， 难 点 是 怎样 使 数据 有 意义 。BSB 模型 利用 其 
内 在 的 雍 类 属性 通过 学 习 韦 达 环 境 的 微波 结构 来 提供 帮助 。 聚 类 形成 在 BSB 模型 的 点 吸引 
子 周围 ( 即 单位 超 立 方 体 的 稳定 角 点 ) ， 每 个 点 吸引 子 代表 一 个 特定 的 发 射 器 。 这 样 ，BSB 模 
型 就 可 以 识别 一 个 特定 发 射 器 所 产生 的 脉冲 。 


14,11 计算 机 实验 工 


对 于 一 个 包含 两 个 神经 元 的 BSB 模型 ， 图 再 - 23 给 出 试验 的 结果 .。2x2 权 倩 答 阵 妈 定义 为 
0.035 。 - 0.005] 
-0.005 0.035 
此 权 符 阵 是 对 称 正定 的 ， 并 满足 式 (14.75)。 
图 14-23 的 四 个 不 同 部 分 分 别 对 应 初始 状态 x(0) 的 四 种 不 同 的 赋值， 如 下 所 示 : 
(a)x(0) = [0.1 0.2] 
(b)x(0)=[-0.2 0.3]7 
(cjx(0)=[-0.8 -0.4] 7 
《dxt0)=[0.6 0.1]7 






























































可 = 








形 纸 形 力 党 519 





图 中 阴影 区 域 是 标志 模型 的 四 个 吸引 和 丛 。 该 图 清晰 地 阐明 当 模型 的 初始 状态 在 一 个 特定 
的 吸引 移 时 ， 模 型 固有 动力 学 驱使 权 值 年 阵 W(m) 随 着 选 代 次 数 ”的 增加 而 增加 ， 直 到 网 络 
状态 xza) 终 止 在 一 个 固定 点 吸引 子 ( 即 一 个 2x 2 正方 形 的 角 点 )， 此 吸引 子 属于 那个 吸引 
盆 : 特别 有 趣 的 是 图 14-234 中 的 轨迹 : 初始 条 件 x(0) 在 第 一 象限 ， 然 而 轨迹 在 第 四 象限 终 
止 于 角 点 (+ 1, - 上 )， 央 为 那 就 是 合适 的 吸引 贫 中 点 吸引 子 所 在 的 地 方 。 


(+ (+l+1)  (-L+D) +l.+l) 
































G-D (1L-1) 


图 14-23 。BSB 模型 计算 机 实验 的 雪线 ; 从 a) 到 由 的 结果 对 应 于 不 同 初始 条 件 


14.12 奇异 吸引 子 和 混沌 

到 目前 为 止 ， 在 我 们 讨论 的 神经 动力 学 中 ， 集 中 于 由 固定 点 吸引 子 所 刻画 的 非 线 性 动力 
学 系统 的 行为 。 在 这 一 节 考 虑 一 种 称 为 奇异 吸引 子 的 为 一 类 吸引 子 ， 它 们 刻画 阶 数 高 于 2 的 
某 种 非 线 性 动力 学 系统 。 

一 个 奇异 吸引 子 表现 出 高 度 复杂 的 混乱 行为 。 使 研究 奇异 吸引 子 和 混沌 特别 有 趣 的 是 ， 
因为 系统 运行 是 由 固定 规 则 所 支配 的 ， 所 以 系统 是 确定 的 。 然 而 这 样 一 个 只 有 少数 几 个 自由 
度 的 系统 却 有 如 此 复杂 的 行为 以 诗 于 它 看 起 来 是 随机 的 。 确实 ， 随机 性 在 以 下 意义 上 是 基本 
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的 : 一 个 汇 鲈 (chaos) 时 间 序 列 的 二 阶 统计 性 似乎 显示 它 是 随机 的 。 然 而 ， 不 像 一 个 真正 的 
随机 志 象 ， 一 个 混沌 系统 所 展示 的 随机 性 并 不 随 着 收集 信息 的 增加 而 减少 。 原 则 上 ， 一 个 混 
沌 系统 未 来 的 行为 完全 由 它 的 过 去 所 决定 。 但 实际 上， 初始 条 件 选择 的 任何 不 确定 性 ， 无 论 
是 多 么 小 ， 随 着 时 间 将 指数 增加 。 这 样 即使 “个 混沌 系统 的 动态 行为 在 短期 内 可 以 预测 ， 却 
不 可 能 预测 系统 的 长 期 行为 。 因 此 ， 一 个 混沌 时 间 序 列表 现 这 样 一 种 矛盾 ; 它 的 产生 是 由 一 
个 确定 动态 系统 支配 的 ， 然 而 它 看 起 来 却 是 随机 的 。 一 个 混沌 现象 的 这 种 属性 最 初 是 由 
Lorenz 在 发 现 一 种 吸引 竹 时 所 强调 的 ， 并 以 他 的 名 字 命名 (TIorenz,1963)。 

在 一 个 非 线性 动态 系统 中 ， 当 吸引 子 中 县 有 相近 初始 条 件 的 不 同 轨迹 随 着 时 间 增 加 而 未 
渐 分 离 时 ， 我 们 就 说 系统 具有 一 个 奇 并 吸引 子 (strange attmaetor) ， 并 且说 系统 本 身 是 混沌 的 
(ehaotie)。 换 名 话说， 使 得 一 个 吸引 子 奇异 的 本 质 属性 是 对 初始 条 件 的 敏感 依赖 。 这 里 ， 敏 
感性 意味 普 如 果 两 个 相同 的 非 线 性 系统 开始 于 稍 有 差 基 的 初始 条 件 ， 即 分 别 为 x 和 x+s, 这 
里 是 一 个 非常 小 的 景 ， 它 们 的 动态 状态 在 状态 空间 中 会 相互 散 于 ,并 且 它 们 的 间隔 平均 而 
言 将 按 指数 增加 。 
混沌 动力 学 的 不 变 特征 

两 个 主要 特征 分 数 维 数 (fractal dimensions) 和 Tyapunev 指数 ， 已 经 成 为 一 种 混 钝 过 程 的 分 
类 器 。 分 数 维 刻画 一 个 麻 异 吸引 子 的 几何 结构 。 本 语 "分 数 "(fractal) 是 由 Mandelbrt( 1982) 提 
出 的 。 不 像 整 数 维 数 (如 二 维 平面 、 三 维 空间 ) ， 分 数 维 数 并 不 是 整数 。 对 于 Lyapunov 指数 ， 
它们 描述 吸引 子 的 轨道 如 何 随 动态 系统 的 演化 而 运动 。 这 两 个 混 症 动 态 系统 的 不 变 特征 将 在 
下 面 讨论 。 术 语 "不 蛮 " 表 明 : 一 个 混 沌 过 程 的 分 数 维 数 和 Lyapunov 指数 在 该 过 程 全 标 系统 的 
光滑 非 线性 变换 下 保持 不 变 {Abarbanal 1996) 。 


分 数 维 堵 


考虑 一 个 奇异 吸引 子 ， 它 旦 d 维 状 态 空间 的 动力 学 出 
X(P+1) = 下 OK(n)) ,mm = 0,1,2,… (14.80) 
描述 ， 它 是 式 (14.2) 的 离散 时 间 形 式 。 通 过 沿 置 ! = "At+， 这 很 容易 看 出 ， 其 中 At 是 采样 周 
期 。 假 定 A: 足够 小 ， 我 们 可 以 相应 地 设置 
芭 (n = 志 [x(ahi + At) - xmAt)] 
这 样 ， 我 们 可 以 得 到 式 (14.2) 的 离散 时 间 堪 式 如 下 : 
亏 [x(aAt + 和 1) -xnAb] = 下 (xnAO)) 对 很 小 的 4 
为 了 表示 方便 ， 令 At = 1 并 对 项 进行 重新 排列 ， 得 到 
X(z+1l) =xn)+ExCn)) 
它 能 写成 式 (14,80) 的 形式 ， 只 要 简单 地 重新 定义 向 量 值 函 数 F(')。 
癌 到 式 (14.380) ， 假 定 我 们 在 吸引 子 的 轨道 上 或 附近 的 一 个 位 置 y 处 构造 半径 为 > 的 小 
球 。 那 么 ， 我 们 对 吸引 子 可 以 定义 点 的 自然 分 布 (natural distribution) 如 下 : 
p0) = 车 广 2My xm) 44.81) 
其 中 %') 是 4 维 delta 酌 数 ，N 是 数据 点 的 个 数 。 注 意 N 在 用 法 上 的 变化 。 自 然 分 布 pn( 了 ) 对 
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一 个 奇异 吸引 子 扮演 的 角色 就 像 一 个 概率 密度 两 数 对 一 个 随机 变量 闭 样 。 相 应 地 ， 我 们 可 以 
随 动态 系统 演化 定义 函数 护 y) 的 不 灾 量 /为 多 重 积分 

三 = 三 Apptmyay (14.82) 
一 个 感 兴趣 的 函数 护 ) 是 使 我 们 能 衡量 当 小 球 半 径 "趋向 于 0 时 小 球 内 的 点 的 数目 如 何 变 
化 。 注 意 ! 维 球 所 占 的 空间 体积 正比 于 只 ， 因 此 ， 通 过 观察 在 状态 空间 中 吸引 子 上 的 点 的 窒 
度 在 小 距离 范围 内 如 何 变化 ,我们 可 以 了 解吸 引子 的 维 数 。 

球 的 中 心 了 和 在 时 刻 ”时 的 点 x(mz) 之 间 的 Euclid 距离 是 | y- x(a) 外 。 因 此 ， 九 果 7 
-xn) | <r， 或 等 价 地 r- 17-x(a) ‖ >0， 则 点 xm) 在 半径 为 r 的 球 内 。 因 此 ， 在 所 扫 
述 情况 下 的 函数 )z) 可 以 写成 一 般 形式 

FA = (er ly-xbDD)” (4.99) 


其 中 9 是 一 个 整数 ，8(' ) 是 由 
































1z>0 
0D,z<T0 


oz) -二 


定义 的 Heaviside 孙 数 。 
将 式 (14.81) 和 (14.83) 代 和 人 (14.82) ， 得 到 一 个 新 的 依赖 于 g 和 的 函数 ， 所 示 ， 


CD = 人 (er-iy-xDID) ( 广 s9 -xjay 
号 7 
如此， 利用 delta 表 数 的 筛选 (sifing) 性 质 ， 也 就 是 对 某 些 函 数 g(…) 的 关系 
人 emag -xm)az -= sx) 
并 交换 求 和 顺序 ， 生生 福全 村 0 
com = 方 or- jxCa) -有 中 一 《4.4) 

















本 数 C(4 ,r) 被 称 为 相关 函数 (correlation Hanctan 品 ， 它 用 来 度量 吸引 子 上 两 点 x(m) 和 xf 人 (及 ) 
以 算 离 > 隔 开 的 概率 。 在 式 (14.84) 的 定义 中 数据 点 的 总 数 W 假定 很 大 。 

相关 冰 数 C(g ,) 是 吸引 子 本 身 的 不 变量 。 虽 然 如 此 ， 在 实际 中 我 们 集中 在 * 很 小 时 
G(9,z) 的 行为 。 这 个 极限 行为 由 








Cr) = re 《14.85) 
描述 ， 其 中 忆 称 为 吸引 子 的 分 数 维 数 ， 假 定 它 是 存在 的 。 在 式 (14.85) 两 边 芭 对 数 ， 得 到 
已 的 正式 定义 
丸 = Ji 吧 d 人 作 让 (4.86) 
然而 ， 由 于 通常 仅 有 有 限 个 数据 点 ， 半 径 r 必须 恰好 足够 小 ,使 得 有 足够 的 点 落 在 球 内 。 对 
一 个 给 定 的 9， 可 以 根据 C(9,) 作 为 logr 的 线性 函数 的 斜率 确定 分 数 维 数 忆 ,。 
对 9=2， 分 数 维 数 Pi, 的 定义 具有 一 个 适宜 于 可 靠 计 算 的 简单 形式 。 所 得 维 数 吕 , 被 称 
为 吸引 子 的 相关 维 数 ( correlation dimension) ( Crassberger and Procaceia, 1983)。 相 关 维 数 反映 于 
有 动态 系统 的 复杂 性 ， 并 且 限 定 描述 该 系统 所 需 的 自由 度 。 
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tyapunov 指数 


Lyapunor 指数 是 描述 吸引 子 未 来 状态 不 确定 性 的 统计 量 。 更 具体 地 ， 它 们 量化 在 移 向 吸引 
子 时 邻近 轨道 析 互 分 齿 的 指数 速度 。 假 定 x(0) 是 初始 条 件 ，ix(z) ,mn = 0,1,2…| 是 相应 的 轿 
道 。 考虑 从 初始 条 件 x(0) 向 和 轨道 相 切 的 向 量 (0) 方 向 上 的 -个 无 穷 小 偏 移 ， 该 向 量 的 演化 
确定 被 扰动 轨道 jy(m) ,ma =0,1,2,…| 从 末 受 扰动 轨道 x(mn),z = 0,12…| 的 无 穷 小 篇 移 的 演化 。 
特别 地 ， 比 值 了 Cn)Z 1 y(n) | 定 义 轨道 从 x(n) 的 无 穿 小 偏 移 。 当 | 7(z) 1 > 1 y(0) 1 时 ， 比 
值 Y(n)x TYCO) | 为 无 穷 小 偏 移 的 增长 因子 ; 当 |‖ y(n) |‖ < | y(0) | 时， 它 为 无 穷 小 偏 移 的 缩 
减 因 子 。 对 初始 条 件 x(0) 和 初始 仿 移 mw = 8(0)7 | y(0) ‖ ，Lyapunov 指数 被 定义 为 : 


MGx(0),a) = 加 二 iog 二 区 | (4.87) 
一 个 & 维 泄 部 过 程 共有 C 个 Lyapunoy 指数 ， 可 为 正 、 负 或 0。 正 的 Lyapunov 指数 说 明 状 态 空 
阅 中 一 轨道 的 不 稳定 性 。 换 名 话说 ， 正 的 Byapunov 指数 导致 混沌 过 程 对 初始 条 件 的 敏感 性 。 
妆 一 方面 ， 负 的 Lyapunov 指数 控制 娄 道 中 朋 态 的 衰减 。 一 个 为 0 的 Lyapunov 指数 诊 明 用 以 产 
生 混 沌 的 固有 的 动态 系统 可 用 一 个 联 立 的 非 线性 微分 方 穆 组 撒 述 ， 即 是 说 该 混沌 过 程 是 一 个 
流 。 在 d 维 状态 空间 中 体积 依 exzp(ZE(X + 和 + …+)]) 变 化 ,这 里 工 是 未 来 的 时 间 步 数 。 因 
此 对 一 个 耗 获 过 程 ， 所 有 Lyapunov 指数 之 和 必须 是 负数 。 这 是 状态 空间 的 体积 要 随时 间 增 加 
而 缩减 所 必须 满足 的 条 件 ， 它 是 物理 实现 的 一 个 要 求 。 





















































Lyapunov 维 数 


给 定 Lyapunov 谱 ) ,ja ，…，,)。 ，Kaplan and Yotke(1979) 提 出 了 -个 奇异 吸引 子 的 Lyapunov 
弘 数 定义 如 下 : 


2 
媚 = 天 十 记 《14-88》 
其 中 天 是 满足 下 列 两 个 条 件 的 整数 : 
> 0 和 2 <0 


通常 ，Lyapunoy 维 数 丹 和 相关 维 数 六 的 天 小 大 体 相同 。 这 是 混沌 过 程 的 一 个 重要 属性 。 也 . 
就 是 说 ， 虽 然 yapunoy 维 数 和 相关 维 数 是 用 完全 不 同 的 方式 定义 ， 但 对 一 个 奇异 吸引 子 ， 它 
们 的 值 是 非常 接近 的 。 
混沌 过 程 的 定义 

在 整个 这 一 节 中 我 们 说 到 了 混沌 过 程 ， 但 没有 正式 定义 它 。 根 据 我 们 对 Lyapunov 指数 的 
了 解 ， 可 以 给 出 如 下 定义 : 

一 个 混 郊 过 程 是 由 一 个 非 线性 确定 系统 产生 的 ， 它 至 少 有 一 个 正 的 lyapunoy 指数 。 
至 少 有 一 个 正 的 Lyapunov 指数 是 “对 初始 条 件 敏 感性 ”成立 的 必要 条 件 ， 对 初始 条 件 敏感 是 一 
个 奇异 吸引 子 的 特点 。 
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最 大 的 Iyapunov 指数 也 定义 一 个 混沌 过 程 的 可 预测 范 国 。 特 别 地 ， 一 个 混沌 过 程 的 短期 
可 预测 性 近 似 等 于 最 大 Lyapunor 指数 的 倒数 (Abarhanal,1996)] 。 


14.13 动态 重 构 


动态 重 构 可 以 定义 为 映射 的 辩 识 ， 该 映射 对 一 个 来 知 前 mm 维 动态 系统 提供 异型 。 这 里 ， 
我 们 的 兴趣 是 对 一 个 已 知 为 混 汪 的 物理 系统 产生 的 时 间 序 列 进行 动态 建 模 。 换 句 话说 ， 给 定 
一 时 间 序 列 1y(n) 1 ， 我 们 希望 建造 -个 模型 来 捕 效 产生 可 观察 y(m ) 的 潜在 动力 学 如 我 
们 在 前 面 - 一 节 开 头 指出 的 那样 ，W 代表 样本 大 小 。 动 态 重 构 的 主要 动机 是 从 这 样 一 个 时 间 
序列 中 得 到 实际 意义 ， 从 而 绕 开 对 漳 在 动 方 学 的 详细 数学 知识 的 需要 。 感 兴趣 的 系统 一 般 太 
复杂 以 至 于 不 能 用 数学 方式 刻 西 它 . 我 们 仅 有 的 可 用 信息 包含 在 对 系统 的 一 个 可 观测 量 进行 
测量 所 得 到 的 时 间 序 列 内 。 
动态 重 构 理 论 ” 最 基本 的 结果 是 一 个 称 为 延迟 -内 入 (delay-embedding} 定 理 的 几何 定理 ， 
该 定理 是 由 Tokens(1981) 提出 的 。Takens 性 虑 一 个 无 噪声 系统 ， 集 中 于 延迟 坐标 映射 (delay 
ceoordinate map) 或 预测 (predietive) 模 型 ， 映 射 或 模型 是 由 表示 动态 系统 的 一 个 可 观测 量 所 表示 
的 时 间 序 列 构造 的 。 特 别 地 ，Takens 证 明 ， 如 果 动 态 系统 和 可 观测 量 是 -.- 般 的 (generic)、 那 
么 从 一 个 维 光滑 紧 流 形 到 本 ”的 延迟 坐标 映射 在 该 流 形 上 是 微分 同 胚 (difieomorphism ) ， 
这 里 ! 是 动态 系统 状态 空间 的 维 数 (微分 同 胚 在 15.3 节 讨论 )。 
为 了 用 信号 处 理 术 语 对 Takens 定型 作 解释 ， 首 先 考 虑 一 个 未 知 的 动 态 系统 ， 该 系统 在 
离散 时 间 的 演化 由 非 线性 差分 方程 
X(zt+1l) = Ex(n)) (14.891 
描述 其 中 Km) 是 系统 在 时 刻 呈 的 之 维 状 态 向 蜡 ，F(.)} 是 一 个 向 量 值 函数 。 这 里 假定 采样 
周期 为 1。 系 统 输出 的 时 间 序 列 }y(z)i 用 状态 向 量 愉 m) 定 义 如 下 ， 
7(n) = ECRCn)) + yn) 《14.90) 
其 中 &(') 是 标量 值 函数 ，"( nm) 表 示 加 性 噪声 。 噪 声 (mn ) 解 释 为 在 观测 y(n) 中 的 不 完全 和 
不 精确 的 综合 效果 。 式 (14.89) 和 (14.9%9) 描 述 动态 系统 的 状态 空间 行为 。 根 据 Takens 定理 ， 
多 变量 动态 系统 的 几何 结构 当 "(n) =0 时 可 以 从 新 向 量 
Fe(p) = [y(na)y(z -roy(a (9-1)z)]7 《14.9]) 
构成 的 也 维 空 锐 中 观察 的 y( mn) 展现 ， 其 中 * 是 一 个 称 为 归 一 化 庶 入 延迟 的 正 整数 。 也 就 是 
说 ， 对 不 局 的 离散 时 间 ”, 给 定 观察 值 yx(n=)， 它 和 未 知 动态 系统 的 一 个 可 观察 值 (分 量 ) 有 
关 ， 假定 刀 >2d+ 1， 使 用 也 维 向 景 ye(n) 动 态 重 构 是 可 能 的 ， 其 中 4 是 系统 状态 空间 的 维 
数 。 以 后 我 们 就 称 这 个 陈述 为 点 入 - 延迟 定理 。 对 动态 重 构 来 说 ， 条 件 六 >2d + 是 充分 的 
但 不 是 必要 的 。 寻 找 合适 六 的 过 程 称 为 炭 入 。 能 够 实现 动态 重 构 的 最 小 的 整数 称 为 并 入 
维 数 ， 用 De 表示 。 
”嵌入 - 延迟 定理 具有 很 强 的 意义 : 重建 空间 中 点 ye Cn) 一 ye(nm+1) 的 演化 服从 原始 状 
态 空 间 中 未 知 动态 系统 x(m)~>x(a+]) 的 演化 。 也 就 是 说 ， 不 能 观察 的 状态 向 量 x( mn) 的 许 
多 重要 属性 可 以 在 由 ya(m) 定 义 的 重建 空间 中 毫 无 冉 义 地 得 到 。 然 而 ， 为 了 获得 这 个 重要 结 
果 ， 我 们 需要 暴 人 维 数 z 和 归 一 化 戏 人 延迟 的 可 靠 估计 ， 如 下 综述 : 
， 充分 条 件 刁 >24 + ! 使 得 解除 吸引 子 一 个 轨道 的 自 相交 成 为 可 能 ， 这 是 出 现在 轨道 
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投影 到 低 维 数 时 出 现 的 问题 。 胞 大 维 数 Pr 可 以 小 于 24 + 1。 推 荐 的 过 程 就 足 从 可 观 
测 数据 直 按 估计 Da 。 估计 疡 的 可 靠 方 法 在 AbarbanaH 1996) 中 描述 的 假 最 近 令 方法。 
在 此 方法 中 ， 系 统 地 考察 数据 点 和 它们 的 近邻 ， 先 在 维 数 4 = 1. 然后 4 = 2，…, 如 
此 等 等 。 我 们 借以 确立 如 显 近 邻 停 止 时 的 条 件 ， 是 当 染 吕 更 多 元 素 到 重 构 向 量 
ys(m) 时 “不 被 投影 "， 这 样 就 获得 对 典 人 维 数 庆 的 估计 。 
很 不 幸 ， 延 迟 - 槛 人 定理 并 林 提 及 电 一 化 嵌 人 延迟 r 的 选择 问 事实 上 ， 只 要 可 
用 时 间 序 询 无 限 长 ， 它 允许 用 任何 的 r， 然 而 ， 实 际 上 我 们 只 能 在 各 限 长 度 N 的 观 
察 数据 上 上 工作。 选择 = 的 正确 方法 是 认识 到 归 一 化 替 人 延迟 对 y(a) 利 y(na- 应 
足够 大 ， 恒 它们 基本 上 独立 ， 这 样 才 能 作为 重建 空间 的 坐标 ; 但 也 不 能 使 它们 完全 
独立 ， 以 致 没 有 任何 联系 。 满 足 这 个 要 求 的 最 好 办 法 就 是 选择 特定 的 = 使 得 y(m) 各 
Yy(m -1 之 间 的 互信 息 获 得 它们 第 一 个 最 小 值 (Fraser,1989) 。 互 信息 在 第 10 坦 讨 论 。 


递归 预测 


从 前 面 讨论 中 知道 ， 动 态 重 构 问题 可 以 解释 为 恰当 地 表示 信号 动力 学 ( 拒 人 步 又 ) 和 建造 
一 个 顷 测 映射 (识别 步骤 )。 因 此 ， 实 际 上 我 们 用 下 面 的 网 络 拓扑 结构 来 进行 动态 建 模 。 
， 短期 记忆 (例如 延迟 线 记忆 ) 结 构 实 现 谋 人 ， 由 此 根据 可 观察 的 y(”) 和 它 的 延 当 形式 
来 定义 重建 向 基 (mn); 参见 式 (14.91)。 
，。 训练 作为 单 步 预测 器 (如 神经 网 络 ) 的 多 输入 单 输出 (MISO) 自 适应 卡 线性 系统 ， 用 人 它 
识别 未 知 映射 AP 多 一 网 、 定 义 如 下 : 
y(m+1l) = 天 re(n)) (14.92) 
式 (14. 吧 ) 描 述 的 预测 映射 是 动态 娃 模 的 中 心 问 题 : 一 旦 它 被 确定 ， 演 化 Ye(z)-ye(nz+1) 
变 成 已 知 ， 由 此 确定 未 知 演化 x(z)-x(m+1)- 
现在 ， 我 们 设 有 一 个 严格 的 理论 来 帮助 我 们 决定 非 线性 预测 器 是 否 已 成 功 地 识别 这 个 未 
知 映射 AP 在线 忻 预 测 中 ， 最 小 化 预测 误差 的 均 方 值 可 以 得 到 一 个 精确 的 模型 。 然 而 ， 一 个 
混 光 时 间 序 列 不 同 。 司 一 个 吸引 子 的 两 个 轨道 在 每 次 采样 基础 上 都 有 很 大 的 不 同 ， 所 以 最 小 
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化 预测 误差 的 均 方 值 对 一 个 成 功 的 映射 仅 是 必 旧 条件 而 [ 享 ER 
不 是 充分 条 件 。 

动态 不 变量 ， 即 相关 维 数 和 Lyrapunor 指数 ， 度 量 吸 
引子 的 全 局 属性 ， 所 以 它们 应 该 可 以 基 断 动态 建 模 的 成 所 一 | 训练 后 的 预测 器 上 到 
功 与 否 。 因 此 。 检验 动 态 建 模 的 一 个 实际 方法 是 在 奇异 和 | 
吸引 子 紫 选 一 点 ， 然 后 反馈 输出 到 其 输入 成 为 一 个 自 图 14-24 在 混沌 过 程 动态 重 构 
党 系统 ,如 t4-24 图 所 示 。 这 样 一 个 操作 称 为 远 代 预测 中 用 于 迭代 镍 测 的 单 步 预 测 器 














或 递归 预测 。 一 日 初始 化 完成 ， 该 自治 系统 的 输出 就 是 
动 雁 重 构 过 程 的 一 个 实现 。 这 当然 要 假定 预测 器 开始 时 已 被 正确 地 设计 。 
我 们 说 由 图 14-24 描述 的 自治 系统 进行 的 动态 重 构 是 成 功 的 ， 如 果 下 面 的 两 个 条 件 成 立 
(Haykin and Principe,1998) : 
。 短期 行为 。 一 旦 初始 化 完成 ， 在 一 段 时 间 内 图 t-34 中 重建 时 间 序列 jy (> 外 紧 紧 跟随 
原来 的 时 间 序列 1y(= )} ， 这 段 时 间 平 均等 于 从 过 程 的 Lyapunorv 谱 确 定 的 可 预测 范围 。 





























形 盈 及 力 学 525 





。 长 期 行为 。 从 重建 时 间 序 列 ;7( mn 外 计算 的 动态 不 变革 和 从 原来 的 时 间 序 列 |y(n) 计 
算 的 动态 不 变量 紧密 地 匹配 。 
为 了 判断 重建 动态 系统 的 长 期 行为 ， 需 要 估计 (1 作为 衡量 吸引 子 复杂 度 的 相关 维 数 ，(2) 用 
于 评价 对 初始 条 件 的 敏感 性 和 估计 Lyapunorv 维 数 的 Lyapunov 谱 构成 的 框架 ; 参看 式 (14.88)。 
Jyapunoy 维 数 应 该 和 相关 维 数 的 值 相近 。 


递归 预测 的 两 种 可 能 的 形式 


式 (14,91) 定 义 的 重建 向 量 ya(n) 的 维 数 为 z ， 假 定 维 数 0 和 谋 人 向 唱 ps 相等 。 要 实 
蓄 嵌 人 的 延迟 线 记忆 的 大 小 是 rpe。 但 延迟 线 记忆 仅 要 求 提供 六 个 输出 (重建 空间 的 维 
数 ); 也 就 是 说 ， 用 个 相等 间隔 的 抽 头 表示 稀 朴 连接 。 
另外 ,也 可 以 把 重建 向 量 ye(m) 定 义 为 -个 完全 的 亚 维 向 量 
yafn) = [y(njy(e-1 yt-m+1)] 《14.53) 
其 中 严 是 一 个 整数 ， 定 义 为 








首 尖 Prer 《14.94》 
第 二 种 重建 向 量 gx ( ma) 的 形式 比 式 (14.91) 提 供 的 形式 对 可 预测 模型 提供 更 多 的 信息 , 因此 可 
能 产生 一 个 更 精确 的 动态 重 多 。 然 而 ， 这 两 种 形式 有 一 个 共同 的 特点 : 它们 的 组 成 都 由 冉 人 
维 数 六 的 知识 惟一 定义 。 在 任何 情况 下 ， 明 智 的 方法 是 用 最 小 允许 的 值 呈 ， 也 就 是 De ， 
来 最 小 化 如 性 噪声 "(m ) 对 动态 重 构 质 量 的 影响 。 


动态 重 构 是 一 个 不 适 定 的 过 滤 问 题 


由 于 以 下 一 个 或 多 个 原因 ， 动 态 重 构 实际 上 是 一 个 不 适 定 的 逆 问 题 ( 闭 问 题 适 定 的 条 件 
在 第 5 章 中 讨论 )。 首 先 ， 由 于 一 些 未 知 的 原因 存在 条 件 可 能 被 破坏 。 第 二 ， 在 可 观察 时 间 
序列 上 的 信息 不 足以 惟一 重建 非 线 性 动态 系统 ; 因此 ， 惟 一 性 标准 被 破坏 。 第 三 ， 不 可 避 免 
地 出 现 加 性 噪声 和 观察 时 间 序 列 的 某 种 不 精确 都 会 增加 动态 重 构 的 不 确定 性 。 特 别 地 ， 如 果 
噪声 水 平 太 高 ， 连 续 狂 标准 也 可 能 被 破坏 。 那 么 怎么 使 动态 重 构 问 题 适 定 呢 ? 答案 在 于 把 包 
含 关 于 输入 - 输出 映射 的 先 验 知识 的 某 种 形式 作为 主要 要 求 。 换 名 话说， 在 预测 模型 的 设计 
中 ， 为 了 解决 动态 重 构 问 题 需 要 引 人 某 种 形式 的 限制 (例如 输入 - 输出 映射 的 光滑 性 )。 满 足 
这 个 要 求 的 有 效 方 法 是 用 Tihonov 的 正则 化 理论 ， 这 也 在 第 5 章 讨论 。 

另 一 个 需要 考虑 的 问题 是 预测 模型 以 足够 精度 解决 着 问题 的 能 力 。 在 这 个 背景 下 ， 用 神 
经 网 络 建造 预测 模型 是 合适 的 。 特 别 地 ， 多 层 感 知 器 或 径 向 基 函 数 网 络 的 通用 遮 近 特性 意味 
着 我 们 利用 具有 适当 规模 的 这 种 或 那 种 昼 经 网 络 可 以 注意 重建 精度 的 问题 。 另 外 ， 由 于 刚才 
说 明 的 理由 我 们 需要 正则 化 的 解决 方法 。 理 论 上 ， 多 层 感知 器 和 径 向 基 丙 数 阅 络 都 适宜 正则 
化 的 使 用 ;实际 上 ， 我 们 发 现在 径 向 基 函 数 网络 中 包括 正则 化 理论 作为 它们 设计 的 整体 部 
分 ， 在 数学 上 易于 处 理 。 所 以 ， 在 下 一 节 描 述 的 计算 机 实验 中 ， 集 中 以 正则 化 的 径 向 天 函数 
(RBF) 网 络 (在 第 5 章 描述 ) 解 决 动态 重 构 问 题 。 


14.14 计算 机 实验 正 





















































为 了 贤明 动态 重 构 的 思想 ， 我 们 考虑 有 三 个 联 立 常 微分 方程 组 的 系统 。 该 系统 由 Lorenz 加 下 
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《1963) 从 低 秒 大 气 热 对 流 的 篇 微分 方程 组 的 Galerkin 近似 抽象 而 来 ， 它 成 为 测试 非 线性 动态 
系统 思想 的 一 个 主要 方程 组 。Lorenz 吸引 子 的 方程 组 为 


严 扣 = -orzfi) +ayf( 虽 
衬 提 =- -se(Dz(D + m(6) -Y( (14.95) 


宇 介 - xDY(E) 一 轨 ( 提 


其 中 e，r 各 是 无 其 网 参数 。 这 些 参 数 的 典型 值 是 ec= 10，15 = 83，r = 28。 
图 14-25 显示 在 两 个 具有 400 个 中 心 的 RBF 网 络 上 ， 使 用 基于 Lorenz 吸引 子 的 *( 妇 分 量 
的 带 噪 声 时 间 序 列 实施 选 代 颅 测 的 结果 。 信 唉 比 是 25 分 贝 。 在 图 14-25a 中 ,网 络 的 设计 被 
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图 14-25 
a 对 SNR= + 的 分 贝 的 Lorerz 数据 的 止 列 化 选 代 预 测 (Y= 400， 严 =20) 
上 包 对 SNK= + 25 分 内 的 Larenz 数据 的 无 正 旭 化 选 代 预 测 (W=400，m= 20) 
在 gj 和 是 中 实 线 为 实际 的 混沌 入 号 ， 岂 线 为 首 构 信和 号 
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正则 化 。 在 图 14-25b 中 ， 网 络 设计 未 被 正则 化 。 图 于 - 




















25 的 这 两 部 分 清楚 地 表明 正则 化 的 


重要 性 。 在 没有 正则 化 的 情况 下 ， 图 14-25b 中 吕 示 的 动态 重 构 问 题 的 解决 方法 是 个 能 接受 


的 ， 因 为 它 不 能 近似 Lorenz 鹃 引子 的 真正 锁 迹 ; 非 正则 化 系统 仅仅 是 一 个 预测 器 。 另 一 方 
面 ， 图 14-25a 中 赤 示 的 动态 重 构 问 题 的 解决 方法 已 经 学 会 动态 系统 ， 因 为 根据 选 代 预 测 的 





网 络 输 出 和 Lorenz 吸引 子 在 短期 的 起 正 轨迹 非常 接近 。 
其 中 我 们 总 结 了 三 种 情况 下 的 Lorenz 数据 。 

(a) 无 噪声 Lorenz 系统 

(b) 信 品 比 SNR = 25 分 贝 的 Lorenz 系统 

















这 一 点 为 表 14-5 记录 的 结果 证 实 ， 


(c) 用 图 14-25a 的 带 蝶 声 Lorenz 时 间 序 列 的 重建 数据 
用 带 噪 声 数 据 的 重建 数据 的 不 变量 和 用 无 噪声 Lorenz 数据 的 重建 数据 不 变量 相近 。 偏 差 的 绝 
对 值 是 由 于 符 入 重建 吸引 子 的 噪声 的 残留 影响 以 及 估计 程序 的 不 精确 。 锅 14-25 清楚 地 显示 
动态 建 模 比 预测 有 更 多 东西 。 这 幅 图 以 及 很 多 不 包括 在 这 里 的 其 他 图 像 者 显示 出 正则 化 RBF 















































的 解 对 选 代 预测 过 程 所 用 的 吸引 子 上 的 初始 化 点 的 重 往 | 








性 。 


从 图 14-2Sa 使 用 正则 化 得 来 的 下 面 陌 点 观察 ， 是 值得 特别 注意 的 : 
1. 图 14-25a 的 重建 时 间 序列 的 短期 可 预测 性 是 大 约 60 个 样本 。 从 无 噪声 Lorenz 吸引 子 

















的 LIyapunov 谱 计算 的 理论 可 预测 值 是 100 个 样本 。 试 验 : 











和 无 噪声 Lorenz 吸引 子 的 预测 范围 的 





偏差 仅仅 显示 用 来 实施 动态 重 构 的 实际 数据 里 面 存在 噪声 。 从 重建 数据 计算 的 理论 可 预测 值 





范围 大 6!( 表 14-5)， 这 非常 接近 短期 可 预测 人 性 的 试验 观察 值 。 











2. 一 且 超 出 短期 可 项 测 性 的 期 限 ， 用 14-25a 中 的 重建 时 间 序列 开始 偏离 真正 Lorenz 吸 





引子 的 无 噪声 实现 。 这 基本 二 直 混 池 动力 学 的 一 个 现象， 





也 就 是 对 初始 条 件 的 敏感 性 。 像 前 


面 提 到 的 那样 ， 对 初始 条 件 的 敏感 性 是 混沌 的 一 个 标志 。 
表 1-5 用 Lorenz 系统 的 动态 重 构 试验 的 参数 小 结 





{a) 无 唆 声 Lorenz 系 绩 
使 用 样本 数 : 35 000 
上 归 -- 化 同和 人 延迟，z=4 
2- 说 人 维 数 ，De =3 
3.Iyapunov 指数 ， 
AN =1.569 了 7 
和 = -0.0314 
和 = -22.3054 
4. 可 预测 范围 一 100 个 样本 
《Db) 有 唆 声 Lorenz 系统 : 25 分 贝 SNR 
使 用 样本 数 : 35 000 
1. 归 :化 戏 入 延迟 ，r=4 
2. 做 人 维 数 ，r =5 
3.Lyspamoy 指数 : 
AN =13.2689 
和 =5.8562 
= -3.1447 
和 = -18.008 2 
和 = -47.0572 
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4. 可 颈 测 范围 ~ 12 个 样本 

《c) 用 图 14-25a 的 月 染 声 Lorenz 数据 重 构 的 系统 
产生 样本 教 { 递 时 地 ); 35 000 

1 归 -化 嵌入 延迟 ，r=4 

2. 嵌 人 继 数 ，P =3 

3.Lyapunov 指数 : 


AN =2.5655 
= -0.6275 
入 = -15.084 2 


4. 可 预测 范围 =61 个 翌 本 

















注意 : 所 有 的 yepueov 指数 的 单位 为 泰 特 / 秒 ， 如 第 10 章 寺 沦 的 那样 ， 一 个 灰 特 是 测 晤 信 息 的 一 个 自然 单位 同伴 ， 
在 情形 中， 噪声 的 影响 是 增加 lyabunov 谱 的 大 小 和 正 Eyapunoy 指数 的 教 量 和 大 小 。 


媚 和 入 的 选择 


答 人 层 的 天 小 闫 出 式 (14. 外 ) 决 定 。 如 以 前 解释 的 那样 ， 推 荐 的 方法 是 根据 等 号 用 最 小 
的 允许 值 m 使 得 唆 声 对 动态 重 构 的 影响 最 小 化 。 

归 --- 化 嵌入 延迟 * 的 估计 值 基本 上 不 爱 噪声 影响 ， 适 宜 于 较 高 的 信 噪 比 。 相 反 ， 噪 声 对 
嵌 人 向 量 疡 的 估计 值 有 深刻 的 影响 ， 这 也 符合 直观 。 例 如 ， 对 于 无 吕 上 声 Lorenz 吸引 子 ， 相 
关 维 数 是 2.01。 因 此 ， 我 们 可 以 选择 嵌入 维 数 De = 3， 这 可 由 候 近邻 方法 确认 。 归 一 化 嵌入 
延迟 为 = 4。 这样， 用 式 (14.94) 的 等 号 可 以 得 到 动态 重 构 的 m = 12。 然 而 ， 对 于 一 个 有 品 
声 的 Lorenz 吸引 子 ， 其 中 SNR = + 2 分 贝 ， 用 假 最 近邻 法 得 到 De = 5， 用 互信 息 法 得 到 r= 
4。 在 式 (14.94) 中 代 人 这 些 估 计 值 并 取 等 号 ， 我 们 得 到 图 14-25 中 有 噪声 动态 重 构 的 mm = 
20。 表 14- 了 包含 归 一 化 嵌入 延迟 r* 和 嵌 人 维 数 De 。 

对 于 图 14-25a 中 用 到 的 正则 化 参数 和 ， 它 是 用 广义 交叉 确认 (generalized cross-validation ， 
CCV) 方 法 由 训练 数据 得 到 的 , 这 种 方法 在 第 5 章 中 讨论 。 图 14-25a 中 所 用 的 入 值 ， 由 GCV 
方法 计算 ， 根 据 数据 的 不 同 在 最 小 值 10 “和 最 大 值 10… 之 间 变 化 。 


14.15 小 结 和 讨论 


这 一 章 的 很 多 材料 都 是 在 讨论 Hopfield 模型 和 BSB 模型 ， 它 们 都 是 作为 植 根 于 神经 动力 
学 的 联想 记忆 的 例子 。 这 两 个 模型 有 下 面 一 些 共同 特点 ， 
它们 都 使 用 正 反馈 。 
它们 都 有 能 量 (Lyapunov) 函 数 ， 固 有 的 动力 学 以 移 代 方式 使 能 量 函 数 最 小 化 。 
它们 都 用 Hebb 学 习 规则 进行 自 组 织 学 习 。 

。 它们 都 能 利用 吸引 子 动力 学 进行 计算 。 

很 自然 ， 它 们 各 自 的 应 用 领域 是 不 同 的 。 

BSB 模型 固有 的 聚 类 能 力 使 它 很 好 地 用 在 数据 表示 和 概念 形成 上 。BSB 模型 最 有 趣 的 应 
用 可 能 是 作为 网 络 的 网 络 (network of networks) 的 一 个 基本 计算 单元 ， 网 络 的 网 络 作为 描述 入 
脑 内 系统 组 织 的 不 同 层次 的 一 个 合理 模型 (Anderson and Sutton 1995)。 在 这 个 模型 中 ， 计 算 单 
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元 构成 分 布 在 二 维 阵 列 中 的 局 部 网 络 ， 因 此 用 术语 “网 络 的 网 络 ”。 不 是 从 一 姑 到 另 一 询 进行 
平均 激活 通信 。 这 些 局 部 网 络 设计 为 通过 激活 模式 (向 量 ) 和 其 他 局 部 网 通信 。 在 常规 的 神经 
网 络 中 神经 元 之 间 有 权 值 相 过 ， 与 之 类 似 的 是 现在 我 们 用 一 组 交互 (interaction) 扰 阵 来 描述 商 
个 局 部 网 络 中 吸引 子 之 间 的 耦合 。 局 部 网 络 基于 它们 的 内 部 连接 形成 育 类 和 层次 使 得 它们 的 
结构 (anatomieal) 连 接 是 稀 上 的 。 也 就 是 说 ， 局 部 网 络 在 内 部 的 连接 比 它们 之 间 的 连接 更 笛 
密 。 然 而 ， 聚 类 之 间 的 荔 能 连 搂 是 富 于 动态 的 ， 这 部 分 起 因 于 局 部 网 络 之 疝 的 时 间 相 关 激 

对 比 之 下 ，Hopfield 模型 可 以 用 来 解决 下 列 计算 问题 , 

1. 核 内 容 寻 址 存储 ， 它 涉及 部 分 或 失真 的 模式 呈现 给 网 络 以 检索 存储 的 模式 。 在 这 个 
应 用 中 ， 一般 过 程 是 利用 基于 MeCulloeh-Pitts 神经 元 (即使 用 硬 限 制 激活 函数 ) 的 离散 Hopfield 
横 型 。 从 计算 的 角度 看 ， 建 造 一 个 按 内 容 寻 赴 存 储 是 很 平凡 的 。 然 而 一 个 按 内 容 寻 址 存储 的 
Hopfield 网 络 是 非常 重要 的 ， 因 为 它 以 全 新 的 方式 阐明 动力 学 和 计算 之 间 的 联系 。 特 别 地 ， 
Hopfield 模型 展示 和 神经 生物 学 有 关 的 下 列 属性 : 

*。 模 再 的 动力 学 在 一 个 高 维 状态 空间 由 大 量 吸引 子 支配 。 

”一 个 感 兴趣 的 点 吸引 子 ( 即 基础 记忆 ) 的 位 置 ， 可 以 通过 仅仅 使 用 该 吸引 子 位 置 的 不 

精确 描述 韧 始 化 模型 以 及 允许 动态 地 演化 模型 状态 到 最 近 点 吸引 子 来 确定 。 

， 学 习 ( 即 模型 自由 参数 的 计算 ) 是 按 Hebb 规则 学 习 进 行 的 。 另 外 ， 这 种 学 习 机 制 允 许 

新 的 点 吸引 子 按 希 望 的 那样 插 人 模型 。 

2. 组 合 最 优化 问题 ， 这 类 问题 被 数学 家 称 为 最 难 的 一 类 。 这 类 最 优化 问题 包括 经 与 的 
旅行 商 问题 (tbaveling salesman problem，'TSP)。 给 定 一 定数 量 城市 的 位 置 ， 假 定 在 一 个 平面 
上 上， 问题 是 找到 最 短 的 路 径 旅游 完 所 有 城市 并 返回 出 发 点 。TSP 问题 陈述 起 来 很 简单 ， 但 却 
很 难 解决 。 除 了 计算 每 条 可 能 路 径 的 长 度 并 选择 最 短路 径 外 ， 没 有 其 他 已 知 的 找 最 优 路 径 的 
方法 。TSP 问题 是 NP - 完全 的 (Hopcroft and Ulman,1979)。 在 一 篇 开创 性 的 文章 中 ，Hopfeld 
and Tank(1985) 一 述 基于 联 立 一 阶 微分 方程 组 的 模拟 网络 怎样 给 出 TSP 问题 的 解 。 具 体 地 ， 
络 的 权 值 由 旅行 中 访问 的 城市 间距 离 决定 ， 该 问题 的 最 优 解 是 神经 动力 学 方程 (14.20) 的 
一 个 固定 点 。 在 此 处 遇 到 的 困难 就 是 将 组 合 最 优化 问题 映射 到 连续 (模拟 ) Hopfield 网 络 上 。 
络 使 一 个 能 量 (Lyapunov) 函 数 最 小 化 ， 然 而 各 常 的 组 合 优化 问题 要 求 满足 一 些 硬 的 约束 条 
件 下 使 目标 函数 最 小 (Gee et al.,1993)。 如 果 违 反 这 些 限 制 中 的 任何 一 个 ， 则 认为 解 是 无 效 
的 。 早 期 的 映射 过 程 是 以 特别 方式 建造 的 Lyapunov 函数 为 基础 的 ， 通 常用 一 项 表示 一 个 约 
束 ,， 由 
































































































































吾 = 加 只 十 CI + co 可 玫 十 《14.96) 
表示 。 第 一 项 玉 " 是 被 最 小 化 的 目标 函数 (如 TSP 路 径 的 长 度 ); 它 由 当前 的 问题 决定 。 剩 余 
的 项 c, E 内 ，cs 5 ，… 代 表 惩 罚 函 数 ， 它 们 的 最 小 化 满足 约束 条 件 。 标 量 c ，c: ，… 是 赋 
予 每 个 惩罚 函数 BEP ， 瑟 "，… 的 常数 权 值 。 不 幸 的 是 ， 式 (14.96) 中 Lyapunoy 扼 数 的 许多 项 
都 互相 干扰 ， 并 且 Hopfield 网 络 的 成 功 与 否 对 cl，c ，… 的 值 非常 敏感 (Gee et al. ,1993 )。 
此 毫 不 奇 性 ， 网 络 经 常 产生 大 量 无 效 的 解 (Wilson and Pawley, 1988; Ansari and Hou, 1997)。 
在 Gee(1993) 中 列 出 用 连续 的 Hopfield 网 络 作为 工具 解决 组 合 优化 问题 的 一 些 基本 问题 ， 其 
中 报告 的 主要 发 现 可 以 概述 如 下 : 
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* 给 一 个 用 二 次 0 - ! 规划 表示 的 纽 合 优 化 问题 ， 如 像 在 旅行 商 癌 题 中 那样 ， 网 络 有 直 
接 的 方法 来 解决 这 个 问题 ， 求 出 的 解 不 违反 问题 的 任何 约束 条 件 。 
，。 基于 复杂 性 理论 和 数学 规划 的 结果 ， 除 了 当 问 题 的 约束 条 件 有 可 能 产生 整 型 多 面体 
《integral polytope) 的 特殊 属性 外 ,证 明 不 可 能 迫使 网 络 收敛 于 一 个 有 效 的 、 可 解释 的 
解 。 用 几何 术语 来 说 ， 一 个 多 面体 ， 即 -- 个 有 界 的 多 面体 (bounded polyhedmn) ， 我 们 
说 它 是 个 整 型 多 面体 ， 如 果 它 的 所 有 顶点 都 是 0-~ 工 点 。 即 使 处 理 整 型 多 面体 时 ， 如 
果 是 标 郑 数 Be 是 二 次 的 ， 则 问题 是 NP - 完全 的 ， 并 不 能 保证 网 络 能 产生 最 优 解 。 
这 类 问题 包含 TSP 问题 。 不 过 ， 如 果 给 出 对 这 个 解 的 下 降 过 程 的 性 质 ， 可 以 找到 一 
个 有 效 解 ， 而 且 所 得 的 解 有 很 大 的 机 会 是 值得 信赖 的 。 
本 章 考虑 的 Hopfield 模型 ， 在 它 的 神经 元 之 问 使 用 对 称 连接 。 这 样 一 个 结构 的 动力 学 和 
梯度 下 降 动 力学 类 似 ， 由 此 保证 能 收敛 到 一 固定 点 。 然 而 ， 人 脑 的 动力 学 在 两 个 重要 方面 和 
Honfield 模型 不 同 : 
。*。 人 脑 内 的 神经 元 连接 是 非 对 称 的 。 
* 人 脑 中 观察 到 振 蓝 的 和 复杂 的 非 周 期 性 的 行为 。 
实际 上 ， 正 是 因为 人 脑 的 这 些 特点 ， 在 Hopfield 模型 之 前 关于 非 对 称 网 络 巴 的 研究 兴趣 已 有 
很 长 态 史 了 。 
如 果 我 们 放弃 对 称 性 的 限制 ， 下 一 个 最 简单 的 模型 是 兴 寿 - 失 制 殉 络 ， 它 的 神经 元 分 为 
两 个 群体 ;一 种 是 只 有 兴奋 性 输出 ， 另 一 种 只 有 抑制 性 输出 。 这 两 种 类 型 神经 元 之 问 的 连接 
是 反对 称 的 。 然 而 ， 同 种 类 型 神经 元 之 间 的 连接 是 对 称 的 。 在 Seung et al.(1998) 中 考虑 了 这 
种 网 络 的 动力 学 。 那 里 的 分 析 利 用 兴奋 - 抑制 网 络 和 梯度 下 降 - 梯度 上 升 动力 学 之 间 内 在 的 
得 似 性 。 这 里 运动 方程 在 某 些 状态 变量 是 娣 度 下 噬 的 ， 对 另 一 些 是 梯度 上 升 的 。 结 果 ， 不 像 
梯度 下 降 动力 学 刻画 的 Hopfield 模型 ，Seung et al.(1998) 所 考虑 模型 的 动力 学 能 收敛 到 一 个 
固定 点 或 一 个 极限 环 中 ， 这 取决 于 网 络 参 数 的 选择 。 因 此 ， 在 Seung et l.(1998} 中 研究 的 非 
对 称 模 型 代表 对 对 称 的 Hopfield 模型 的 进一步 发 展 。 


注释 和 参考 文献 
1 一 个 非 自治 (nonautonomous) 系 统 由 状态 方程 
是 xD = FGx(D ,Dax() = 轴 


定义 。 对 一 个 非 自治 系统 ,向量 域 了 (x(t) ,依赖 于 时 间 +。 因此 ， 不 像 自治 系统 那 
样 ， 我 们 一 般 不 置 初始 时 间 为 0(Parker and Chua,1989)。 

[2] 一 般 地 ， 除 式 (14.11) 外 一 个 非 线性 动态 系统 的 全 局 稳定 性 还 需要 径 向 无 界 条 件 (Slotine 
and Li,1991) 









































TCD 一 mm 当 站 区 | 一 加 
成 立 : 由 具有 sigmoid 激活 蚌 数 的 神经 网 络 构造 的 Iyapunerv 函数 通常 满足 该 条 件 。 
[3] 我 们 给 出 一 个 吸引 子 的 严格 定义 如 下 (Ianford 1981;Lichtenberg and Liebemnan ,1992) : 
状态 空间 的 一 个 子 集 ( 流 形 ) W 被 称 为 一 个 吸引 子 ， 如 果 : 
。 夺 关于 流 保持 不 变 
。 在 流 中 ，M 周围 有 一 个 ( 开 ) 邻 域 收 纳 到 村 
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， if 的 所 有 部 分 都 不 是 朋 态 的 
*， 拷 不 能 被 分 成 两 个 互 不 相交 的 不 变 片 (piece) 


[4] 集中 点 火 [Integrate-and-Fire) 神 经 元 


式 (14.14) 的 加 性 模型 并 没 充 全 抓 住 一 个 生物 神经 元 的 精髓 。 特 别 地 ， 它 忽略 了 动作 电 
位 里 编码 的 时 序 信息 ; 动作 电位 在 第 1 章 给 出 简要 的 定性 描述 。Hopfield(1994) 撒 述 一 
个 动态 模型 ,通过 考虑 一 个 集中 点 火 神 经 元 捕 提 动作 电位 。 这 伴 一 个 神经 元 的 运行 由 
一 阶 微分 方程 





CS =- 丽 (o(9 -a)3i (D) 
描述 ， 其 中 we( 9) = 神经 元 内 部 电位 。C = 神经 元 周围 细胞 膜 的 电容 ， 中 = 细胞 膜 的 漏 
(leakage resistance)， 并 世 = 由 另 一 昼 经 元 注 人 当前 神经 元 的 电流 ，uo = 当 i(1) 消 失 
时 神经 元 减少 的 电位 。 在 每 次 内 部 电位 w() 达 到 阔 值 时 产生 一 个 动作 电位 。 
动作 电位 被 看 作 是 Dinae deka( 冲 击 ) 丽 数 ， 表 示 为 

枉 ( 旨 = 28 丰 ) (2) 
其 中 &s，m = 1，2，3，… 代 表 神 经 元 的 激活 动作 电位 的 次 数 ， 这 些 次 数 由 式 (所 
定义 
































流 人 神经 元 的 总 电流 的 行为 模型 化 为 
困 (0 = 300 + 于 wet G) 

其 中 ww 为 神经 元 到 神经 元 天 的 突 触 权 值 ，* 是 神经 元 志 的 特征 时 间 常 数 ， 函 数 可 ( 菇 
由 式 (2) 定 义 。 

式 (14.4) 的 加 性 模型 可 看 作 是 (3) 的 一 个 特例 。 具 体 地 ， 忽 略 & (6 尖峰 (spiky) 人 性 
质 ， 而 代 之 以 驴 ( 匡 和 一 个 光滑 琢 数 的 卷 积 。 这 样 做 的 理由 如 下 ， 因 为 高 度 连接 在 一 
个 合理 的 时 间 间 隔 内 式 (3) 右 边 的 总 和 会 有 许多 项 ， 并 且 我 们 只 关心 神经 元 天 点 火 率 的 
短期 行为 。 
Little 模型 (Litle,1974; Little and Shaw,1975) 和 Hopfield 模型 一 样 使 用 同样 的 权 值 。 然 而 ， 
它们 不 同 之 处 在 于 Hopfield 模型 用 异步 ( 串 行 ) 动 力学 ， 而 Litle 模型 用 同步 (并 行动 力 
学 。 相 应 地 ， 它 们 雇 示 不 同 的 收敛 性 (Bmek,1990; Goles and Marinez,1990)。Hopfield 网 
络 总 是 会 收 委 色 一 个 稳定 状态 ， 而 Littie 模型 总 是 会 收敛 到 一 个 稳定 状态 或 长 度 至 多 为 
2 的 极限 环 。 所 谓 “ 极 限 环 " 是 指 网 络 状态 空间 的 长 度 小 于 或 等 于 2 的 环 。 
非 单调 激活 函数 
为 了 克服 Hopfield 模型 作为 按 内 容 寻 址 存储 的 局 限 ， 文 献 中 提出 了 各 种 各 样 的 建议 。 
也 许 到 有 只 前 为 止 最 有 意义 的 改进 是 Morita(1993) 提 出 的 ， 它 应 用 于 Hopfield 筑 型 的 连续 
(和 模拟) 形式 。 修 改 限制 在 一 个 神经 元 的 激活 函数 %(`) 上 ， 从 而 保持 网 络 作为 联想 记忆 
的 简单 性 。 具 体 地 ， 网 络 中 的 每 个 神经 元 的 通常 硬 限 制 (hard-limiting) 或 sigmoid 激活 函 
数 蔡 换 为 非 单调 函数 。 在 数学 形式 上 ， 这 个 激活 函数 由 两 个 因子 的 乘积 定义 ， 表 示 为 


1 -exp(- at) 1fL+kexp(b(y1-c)) 
(人 人 二 和 (9 


其 中 "为 诱导 局 部 域 。 式 1) 右边 的 第 一 项 是 连续 Hopfield 模型 中 常用 的 sigmoid( 双 明 
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[8] 


正切 ) 丽 数 。 第 二 项 使 激活 函数 w( ") 成 为 非 单调 的 。 第 二 项 中 的 参数 5 和 。 是 正 的 常 
数 ， 参 数 “通常 是 负 的 。 在 由 Moritat 1993) 所 做 的 试验 中 ， 各 个 参数 赋值 如 下 : 
a=505=15,ce=0.Sjc=-1 

根据 Morita 的 研究 ， 激 活 晒 数 的 堪 式 和 所 用 的 参数 并 不 苛刻 ;最 本 质 的 因素 是 激活 函 

数 的 非 单调 属性 。 

Morita 描述 的 一 个 按 内 容 寻 址 存储 器 模型 有 两 个 有 趣 的 性 质 ( Yoshizawa et 中 . ，1993): 

1. 对 由 个 神经 元 构成 的 网 络 ， 模 型 的 存储 容量 约 为 0.3 W( 对 较 大 的 六 )， 比 常规 
Hopfield 模型 的 相应 值 W/(2logw) 要 大 得 多 。 

2. 模型 没有 当 现任 何 伪 状 态 (spurious state) 、 相 反 ， 当 它 不 能 焦 复 起 一 个 正确 的 记忆 模 
式 时 ， 网 络 状态 被 推进 到 一 种 混沌 行为 。 混 沌 的 概念 在 14.13 节 中 讨论 。 

式 (14.84) 定 义 的 相关 函数 C(g,r) 的 思想 在 统计 上 已 知 是 从 Remyi(1970) 的 工作 得 来 

的 。 然 而 用 它 去 刻画 一 个 奇异 吸引 子 是 在 Grassberger and Procaecia(1983) 中 提出 的 。 他 

们 最 初 是 讨论 相关 维 数 9 =2 时 C(9 ,r) 的 应 用 - 

从 一 个 时 间 序列 里 用 独立 坐标 来 构建 动态 系统 首先 由 Packard el al.(1980) 提 出 。 然 而 ， 

这 篇 论文 并 没有 给 出 证 明 ， 用 的 是 “导数 “ 允 人 而 不 是 时 间 - 延迟 知人 和信。 时间 - 延迟 艇 

人 或 延迟 坐标 嵌入 归功 于 Ruele 和 Takens。 特 别 地 ，1981 年 Takens 发 表 了 一 篇 在 数学 

上 很 深刻 的 时 间 - 延迟 答 人 方面 的 文章 、 它 应 用 于 吸引 子 为 曲面 或 类 似 环 面 ; 也 可 以 

参看 Maie(1981) 在 同一 杂志 上 发 表 的 同一 主题 的 论文 。Takens 的 论文 对 非 数 学 家 来 说 

很 难 黎 ，Maiie 的 更 难 黎 。 延 迟 坐标 映射 的 思想 在 Sauer et 引 . (1991) 中 得 到 提炼 。 在 这 

篇 论文 中 采用 的 方法 是 对 Whitney(1936) 和 Takens(1981) 的 早期 结果 的 综合 和 扩展 。 

将 生物 神经 网 络 看 成 一 个 出 现 振 葛 行 为 和 行 波 的 非 线 性 动态 系统 已 有 很 长 的 历史 

《Wilson and Cowan 1972;Amari 1977a, 1977b; Amari and Arib 1977); 也 可 以 参看 Camenter 

t ai,(1987) 的 讨论 。 
































习题 


动力 系统 


14.1 对 于 状态 向 量 x(0) 作 为 一 个 动态 系统 的 平衡 状态 ， 重 述 [yapunov 定理 。 
14.2 验证 图 14-8a 和 14-8&b 的 框图 分 别 对 应 神经 动力 学 方程 (14.18) 和 (14.19)。 
14.3 考虑 一 个 一 般 的 神经 动力 学 系统 ， 它 依 茂 于 未 指定 的 内 部 状态 参数 、 外 部 动态 刺 

















激 和 状态 变量 。 系 统 由 状态 方程 


些 = 见 ( 凤 0， 了 = 12 让 


定义 ， 其 中 抢 阵 四 代表 系统 的 内 部 动态 参数 ， 向 量 ea 代表 外 部 动态 刺激 ，x 是 状态 向 量 ， 
它 的 第 7 个 元 素 用 表示。 对 于 妈 ，u 的 值 和 在 状态 空间 的 某 些 运行 区 域 xX(0) 的 值 ， 假 定 


系统 的 轨迹 收敛 到 点 吸引 子 (Pineda,1988hb )。 讨 论 所 描述 的 系统 怎么 能 用 于 如 下 应 用 : 











(ga) 连 续 映 射 器 ，5 是 输 和 人，XK(o ) 是 输出 
(b) 自 联想 记忆 ，x(9) 是 输入 ，x( om ) 是 输出 


Hopfield 模型 


14-4 考虑 5 个 神经 元 组 成 的 Hopfield 网 络 ， 它 需要 存储 以 下 三 个 基本 记忆 : 
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+1l+l + + +1 

下- -1 -1+1-17 

所 =[-1+l-1+1+I7 

(a) 计 算 网 络 的 5xs 突 触 权 值 矩阵 。 

《b) 用 异步 更 新 滨 示 所 有 三 个 基本 记忆 总 ,所 ， 扣 满足 对 齐 条 件 。 

(ce) 如 护 是 有 噪声 的 ， 它 的 第 二 个 元 素 极 性 反 转 ， 研 究 网 络 的 检索 性 能 。 
14.5 研究 同步 更 新 时 习题 14.4 所 描述 Hopfield 网 络 的 检索 能 力 。 

14.6 《aa 证明 








吕 = [-1 -lb 一品 
包 =[-1+l+l-1+1]7 
下 = [Li+rl-l+l-l -1 
也 是 习题 14.4 所 描述 的 Hopfield 网 络 的 基本 记忆 。 这 些 基 本 记忆 和 习题 14.4 中 的 基本 记忆 
之 问 有 什么 关系 ? 
《b) 假 定 习题 14.4 中 基本 记忆 上 的 第 一 个 元 素 被 损坏 ( 即 减少 为 0) 。 确 定 Hopfield 网 络 
所 产生 的 结果 模式 。 比 较 这 个 结果 和 上 号 的 原始 形式 。 
14.7 考虑 由 两 个 神经 元 构成 的 简单 Hopfield 网 络 ， 网 络 的 突 般 权 值 矩阵 为 
册 - 0 一 ]] 
-1 0 
每 个 神经 元 的 仿 置 为 0， 网 络 的 四 个 可 能 状态 是 
=[+l+t=[-b+U7=[-i-Urm=[+l-1lr 
(a) 说 明 状态 和 积 因 是 稳定 的 ， 而 状态 交 和 为 成 为 极限 环 。 用 下 面 两 个 工具 来 赔 明 ， 
1. 对 齐 ( 稳 定性 ) 条 件 
2. 能 量 函 数 
(b) 刻 画 状 态 罗 和 为 的 极限 环 的 长 度 是 多 少 ? 
4.8 在 本 是 中 ， 我 们 推导 式 (14.55)， 它 是 计算 按 内 容 寻 王 存 储 器 的 Hopfield 网 络 在 几 
乎 无 错 情况 下 的 存储 容量 。 
(9) 误 差 函 数 的 渐进 行为 可 以 近似 描述 为 








图 





erf(y) = 1 一 纪 ”, 对 大 的 了 
7 


全 
用 这 个 近似 证 明 式 (14.53) 的 条 件 概率 可 近似 为 


Pa>0l8 =+l)1- 


其 中 是 信 噪 比 。 证 明 稳 定 模式 的 锋 率 相应 近似 为 


取 


ee 


V me 


(pb) 在 (a) 中 公式 pu 的 第 二 项 是 基本 记忆 中 一 个 比特 不 稳定 的 概率 。 根 据 几 乎 没有 错误 
的 存储 容 基 的 定义 ， 仅 要 求 这 一 项 较 小 是 不 够 的 ; 相反 它 和 LN 相 比 必须 是 小 的 ， 其 中 N 
是 Hopfield 网 络 的 大 小 。 证明 信 虽 比 必须 满足 条 件 
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已 > 2log.N + 二 log.(2rp) 


《c) 利 用 从 (b) 中 得 到 的 结果 ， 证 明 为 了 大 部 分 基本 记忆 能 完全 恢复 所 要 求 信 噪 比 的 最 小 
人 允许 值 为 


pa = 2logN 
相应 的 pu 是 多 少 ? 
(9 用 (ec) 的 结果 ,证明 
人 
if 一 2togW 


正如 式 (14.55) 中 摘 述 的 那样 。 

(e) 由 (d) 推 导 的 存储 容量 公式 是 基于 大 部 分 基本 记忆 是 稳定 的 。 对 励 铺 误 的 存储 容量 给 
出 一 个 更 严格 的 定义 ， 我 们 要 求 所 有 基本 记 亿 都 能 被 正确 地 检索 。 利 用 这 后 一 个 定义 ， 证 明 
能 存储 在 Hopfield 网 络 中 的 最 大 基本 记忆 的 数目 为 (Amit 1989)》 


允 
全 4log 入 
14.9 ”一 个 Hopfield 网 络 的 能 量 画 数 可 表达 为 
胆 
号 = -六 已 王 
其 中 m, 代表 由 
| 
mm 一 二 2 7 = 1 2， 条 


定义 的 重 晋 ， 其 中 必 是 状态 向 量 x 的 第 ) 个 元 素 ， 忆 ,是 基本 沁 忆 总 第 7 个 元 素 ， 昌 是 基本 
记忆 个 数 。 

14.10 设计 Hopfeld 网 络 用 来 存储 两 个 基本 记忆 模式 (+1,+1 -1 +L +1 和 
(+1, -1 +l,-t+lD。 网 络 的 突 触 权 值 矩 阵 如 下 : 








0 0 0 0 2 
0 0 -2 2 0 
WwW=|0 -2 0 -20 
0 2 -2 0 0 
20 0 0 0 


(a) 和 矩阵 吧 的 特征 值 之 和 为 0。 为 什么 ? 

(b) 网 络 的 状态 空间 是 区 的 一 个 子 空 间 。 详 细 说 明 这 个 子 空间 的 结构 。 

(e) 由 基本 记忆 向 量 扩张 的 子 空间 记 为 刀 ， 符 阵 奏 的 零 空 间 记 为 N。 网 络 的 固定 点 (稳定 
状态 ) 和 伪 状 态 是 什么 ? 

(读者 苦 希 望 了 解 这 里 描述 的 网 络 的 动力 学 的 一 个 更 详细 的 描述 ， 可 以 参考 deSilva and 
Attikiouzzel 1992) 的 文章 。) 

14.11 图 14-26 显示 一 个 非 单调 激活 函数 的 分 段 线性 形式 。 用 这 个 近似 形式 的 Hopfield 
网 络 的 恢复 动力 学 由 


是 v() = -Vi 人) +WxKCE KE) = sgn(y(D) -EC 
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定义 ， 其 中 Y( 蚊 是 向 量 的 诱导 局 部 域 ， 色 是 突 触 权 值 垂 阵 ，K( 纪 是 状态 (输出 ) 同 量 。 -站 
是 一 个 负 的 常数 斜率 。 今 了 是 位 于 基本 记忆 上 的 象限 
内 的 网 络 平衡 状态 ， 并 令 

X = sgn(9) - 及 
证 明 双 由 下 面 一 个 条 件 所 刻画 ( Yoshizawa et al. ，1993) : 














站 
(a) 2158， = 0， 六 = 23 于 
加 


(D) 袜 ss， = 人 

(o) 人 1 i1，2，…，N 

其 中 总 ， 扣 ，…，8w 是 存储 在 网 络 中 的 基本 记忆 ， 
外 .是 所 第 计 个 元 素 ,， 元 是 玉 的 第 让 个 元 素 ，WN 是 神经 
元 个 数 。 图 14-26 

J4.12 考虑 由 下 列 方程 描述 的 简单 神经 动力 学 模 








型 : 
加 ， 
本 = 人 (n+ = 2 
描述 的 系统 总 是 会 收敛 到 一 个 惟一 的 点 明 引 子 ， 假 定 突 触 权 值 由 满足 条 件 
2 1 
之 了 < (maxlwTF 


其 中 W = dp/dm。 考 查 这 个 条 件 的 正确 性 。 你 可 以 参考 论文 (Atiya,1987) ， 该 条 件 是 从 这 篇 
文章 导出 的 。 
Cohen-Grossberg 定理 

14.13 考虑 式 (14.57) 定 义 的 Lyapunov 函数 。 如 果 式 (14.59) 至 式 (14.61) 的 条 件 满足 ， 
证 明 9 


HM.I4 在 4.10 节 ,我们 通过 应 用 Coher- 
Grossbe 节 定理 导出 了 BSB 模型 的 Lyapunov 力 
数 。 在 推导 式 (14.73) 时 ,省 略 了 一 些 细节 。 
请 写 出 这 些 细节 。 

14.15 图 14-27 显示 非 单 调 激活 函数 的 
一 个 图 形 ， 该 函数 由 Morita( 1993) 提 出 ， 这 在 
注释 [6] 中 讨论 过 。 这 个 函数 在 构造 Hopfield 
网 络 时 用 于 代替 双 曲 线 正 切 函 数 。Cohen- 
Crossberg 定理 适用 于 这 样 构造 的 联想 存储 器 
玛 ? 请 说 明 你 的 理由 。 
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第 15 章 动态 驱 


15.1 简介 


动 的 递归 网 络 


如 在 前 一 章 提 到 的 ， 递 归 网 络 是 有 一 个 吉 多 个 反馈 环 的 神经 网 络 。 反 馈 可 以 是 局 部 的 或 


全 局 的 。 在 这 一 章 ， 我 们 继续 研究 有 全 局 反馈 环 的 递归 网 络 。 











给 定 多 层 感知 器 作为 基本 模块 ， 应 用 全 局 反馈 可 以 有 不 同 的 形式 。 反 馈 可 以 从 多 层 感知 
器 的 输出 神经 元 到 输入 层 。 还 有 另 一 种 可 能 的 全 局 反馈 是 从 网 络 的 隐藏 神经 元 到 和 输入 层 。 当 
多 层 感 知 器 有 多 个 隐藏 层 时 ， 全 局 反馈 的 可 能 形式 甚至 可 以 进一步 扩大 。 要 点 是 递归 网 络 有 





丰富 的 结构 布局 。 

基本 上 ， 递 归 网 络 有 两 个 基本 芒 能 作 
* 联想 记忆 

。 输入 - 输出 映射 网 络 























递归 网 络 作为 联想 记忆 在 14 章 已 经 有 详细 叙述 。 这 一 章 我 们 将 研究 作为 输入 - 输出 映 
射 网 络 的 用 途 。 无 论 用 途 怎 样 ， 研 究 递归 网 络 时 特别 关注 的 问题 是 它 的 稳定 性 ; 这 个 问题 在 

















第 14 章 也 考虑 过 。 





由 定义 ,映射 网 络 的 输 人 空间 被 映射 到 输出 空间 。 对 于 这 方面 的 应 用 ， 递 归 网 络 依 时 序 
响应 外 部 应 用 的 输 人 信和 号。 因此 我 们 在 这 一 章 里 可 以 称 递归 网 络 为 动态 驱动 递归 网 络 。 而 
且 ， 反 馈 的 应 用 使 得 递归 网 络 获得 状态 表示 ， 这 使 得 它 成 为 适应 于 不 同 应 用 的 工具 ， 例 如 非 
线性 预测 和 建 模 ， 通 信 信 道 的 自 适应 平衡 ， 语 音 处 理 ， 设 备 控制 以 及 汽车 发 动机 的 诊断 。 因 
此 ， 递 归 网 络 提供 第 13 章 所 说 的 动态 驱动 前 镜 网 络 的 一 种 替代 。 

由 于 全 局 反馈 的 效益 ， 它 们 实际 可 以 运行 得 更 好 。 使 用 全 局 反馈 具有 大 大 减少 记忆 需求 




















的 潜力 。 
本 章 的 组 织 

















本 章 分 为 四 个 部 分 : 体系 结构 ， 理 论 ， 学 习 算法 和 应 用 。 第 一 部 分 包含 15.2 节 ， 讨 论 


递归 网 络 的 体系 结构 。 


第 二 部 分 包括 15.3 节 至 15.5 节 ， 处 理 递归 网 络 的 理论 部 分 。15.3 节 描述 状态 空间 模型 


以 及 相关 的 可 控 性 和 可 观察 性 的 问题 。15.4 节 导 


出 一 个 状态 空间 模型 的 等 价 模型 ， 通 称 为 


有 外 部 输 和 人 的 非 线性 自 回 归 的 模型 。15.5 节 讨 论 递归 网 络 计算 能 力 的 一 些 理论 问题 。 


第 二 部 分 包括 15.6 节 至 15.12 节 ， 讨 论 递归 





网 络 的 学 习 算 法 和 相关 问题 。 开 始 在 15.6 


节 有 一 个 对 主题 的 综述 。15.7 节 在 第 4 章 的 材料 基础 上 讨论 通过 时 间 的 反 向 传播 算法 。15.8 
节 讨 论 另 一 个 流行 算法 : 实时 递归 学 习 ，15.9 节 对 经 典 Kalman 滤波 理论 进行 简短 综述 ， 紧 
跟着 15.10 节 描 述 解 罚 扩 展 的 Kalman 过 让 算 法 。15.11 节 给 出 了 后 面 这 个 算法 用 于 递归 学 习 














的 一 个 计算 机 实验 。 建 立 在 梯度 基础 上 的 递归 学 习 受 到 消失 梯度 问题 的 影响 ，15.12 节 对 此 





有 讨论 。 
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第 四 部 分 也 是 本 章 最 后 一 部 分 ,包括 15.13 节 和 1$.14 节 ， 讨 论 递归 网 络 的 两 个 重要 应 
用 。15.13 节 讨 论 系统 辩 识 。15.14 节 讨 论 模型 参考 自 适 应 控制 。 


在 15.15 节 以 一 些 最 终 评论 结束 章 。 
15.2 递 好 网 络 体系 结构 


如 前 面 介 绍 所 音 ， 递 归 网 络 的 结构 布局 有 许多 不 同形 式 。 本 节 讨 论 四 种 特殊 结构 ， 每 一 
种 着 重 于 全 局 反馈 的 一 种 特殊 形式 " 。 它 们 帮 如 下 共同 的 特点 : 











。 它们 都 结合 一 个 硒 态 多 层 感 知 器 或 其 中 某 些 部 分 。 
。 它们 都 利用 多 层 感 知 器 的 非 线性 映射 能 方 。 


输入 - 输出 递归 网 络 








:33 








人 被 应 用 到 有 9 个 单元 的 抽 头 延迟 线 
记忆 。 模 型 的 单个 输出 通过 另外 9 个 
单元 抽 头 延迟 线 记忆 反馈 到 输入 .两 
个 抽 头 延迟 线 记 亿 的 内 容 被 用 于 反馈 
到 多 层 感 知 器 的 输入 。 模 型 输 人 的 当 
前 值 用 x( za) 代表 ， 相对 应 的 输出 用 
y(na+l) 表 示 ;， 也 就 是 输出 领先 输 人 

个 时 间 单 位 。 因 此 应 用 到 多 层 感知 
器 输入 层 的 信号 向 量 的 数据 窗口 数据 
刻下 : 

” 现在 和 过 去 的 输入 值 ， 即 

了 (mm) (1)， (一 
4+1)， 表 示 来 自 网 络 外 部 的 
输入 。 

，*， 输出 的 延迟 值 ， 即 y(a)， 
Yy(n-l),…， yqg+l)， 
在 此 基础 上 模型 输出 y(m + 
1 进行 回 归 。 

进 图 15-1 的 递归 网 络 称 为 有 外 
部 输入 的 非 线性 自 回归 檬 型 (nontinear 
autoregressive with exogenous inputs modej， 
NARX )5 。NARX 的 动态 行为 由 
7y(n+1l) = Ryany(n -e+1l)， 
RD) +1)) 
































(15.1) 
描述 ， 其 中 严 是 它 的 自 变量 的 一 个 非 
线性 明 数 。 注 意 在 图 15-1 中 ,已 经 假 


图 15- 1 显示 几 一 个 多 层 感 知 器 的 自然 











医 广 而 得 到 的 通用 递归 网 络 模型 。 异 型 有 一 个 输 


输入 
8 




















2 多 层 感 输出 
和 器 着 “yo+D 











wm- 9g+ 了 


Ya 一 了 + 了 F 一 一 














3 一 9+2 


Fo-D 














加 加 | 


























图 15-1 有 外 部 输入 的 非 线性 自 回归 (NARX) 寞 型 
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设 两 个 延迟 线 记 忆 有 同样 大 小 的 9; 它们 …- 般 是 不 同 的 。NARX 模型 将 在 15.4 节 详 细 探究 。 
状态 空间 模型 


狗 15-2 表示 另 一 种 通用 的 递归 网 络 的 框图 ， 称 为 状态 空间 模型 。 隐 藏 神经 元 定义 网 络 
的 状态 。 隐 藏 层 的 输出 通过 一 个 单元 延迟 模块 反馈 回 输 和 人。 输入 层 为 反馈 节点 和 源 节 点 的 联 
合 。 网 络 是 通过 源 节点 和 外 部 连接 的 。 用 于 将 隐藏 层 输出 反馈 回答 人 层 的 延迟 单元 的 数目 决 
定 了 模型 的 阶 数 。m x 工 维 的 向 量 ug n) 代 表 输 入 ，4 x 1 向 量 x( mn) 代 表 隐 藏 层 在 mn 时 刻 的 输 
出 向 量 。 我 们 可 以 用 下 烈 两 个 联 立方 程 组 描述 在 图 15-2 中 的 模型 的 动态 行为 ; 
xmn+l) = xn az)) (15.2》 
y(z) = Cx(n) (15.3) 
这 里 长" …) 是 一 个 刻 划 隐藏 层 特征 的 非 线 忻 晒 数 ，C 是 代表 输出 层 特征 的 突 触 权 值 矩阵 。 隐 上 
藏 层 是 非 线性 的 ， 但 输出 层 是 线性 的 。 
15-2 的 递归 网 络 包括 几 个 特殊 的 递归 结构 作为 其 特例 。 例 如 ，Elman(1990) 描 述 过 的 
在 图 15-3 所 示 的 简单 递归 网 络 (simple recurrent netwokk ,SRN)。Elman 网 络 结构 和 图 15-2 所 示 
结 梅 有 相似 之 处 ， 除 了 输出 层 可 以 是 非 线性 的 和 省 略 了 输出 的 单元 延迟 模块 。 













































































个 单元 延 输出 
壕 的 模块 向 量 














有 具有 音 个 隆基 层 
的 多 层 感知 器 


图 15-2 状态 空间 模型 








也 man 网 络 包含 从 隐藏 层 神经 背景 单元 
元 到 由 单元 延迟 组 成 的 背景 单元 单元 延 过 
(eonted unit) 层 之 问 的 递归 连接 。 模块 
这 些 背 景 单元 存储 隐藏 神经 元 对 上 有 目 ---- 一 ---- 











应 一 个 时 间 步 的 输出 ， 接 着 反馈 


可 输入 层 。 因 此 让 划 神 经 元 具有 。 乔 全 emeae 扣 mm | 
上 


它们 以 前 激活 的 记录 ， 这 使 得 网 -一 一 





























终 可 以 进行 通过 时 间 扩展 的 学 刁 有 交 直 度 本 全 的 
任务 。 隐 藏 神经 元 也 馈 给 答 出神 的 
经 元 ， 答 出 神经 元 给 出 在 外 部 激 国 153 科学 玫 有 网 缚 (SR ) 


励 作 用 下 网 络 的 响应 。 由 于 隐藏 神经 元 反馈 的 特性 ， 这 些 神经 元 在 多 时 间 步 内 通过 网 络 继续 循 
环 信息 ， 从 而 发 现时 间 的 抽象 表示 。 因 此 简单 递归 网 络 不 仅仅 是 纪录 过 去 数据 的 纪录 带 。 

了 iman(1990) 讨 论 利 用 图 15-3 所 示 的 简单 递 扫 网 络 在 连续 音素 流 中 发 现 单词 的 边界 ， 而 
不 需 任何 内 部 表示 性 约束 。 递 轨 网 络 的 输入 代 表 当 前 的 音素 。 输 出 代表 网 络 对 序列 中 下 一 个 
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音符 的 最 佳 猜测 。 背 景 单元 的 作用 是 给 网 络 提供 动态 记忆 以 便 能 够 对 包含 在 一 系列 的 音素 中 
的 信息 进行 编码 ， 这 是 和 预测 有 关 的 。 
递归 多 层 感知 器 
第 一 种 递归 结构 是 一 种 递归 多 层 感知 器 (Tecurent multilayer perceptron, RMLP)(Puskorius et 
al.,1996)。 它 有 一 个 或 多 个 隐藏 层 ， 基 本 上 因为 同样 的 原因 ， 静 态 多 层 感知 器 比 那些 使 用 单 
个 隐藏 层 的 感知 器 更 有 将 和 节约 。RMLP 的 每 一 个 计算 层 对 它 的 邻近 层 有 一 个 反馈 ， 如 图 
15-4 所 示 ， 此 时 RMLP 有 两 个 隐藏 层 。 
向量 KTCn) 代 表 第 一 个 隐藏 层 的 输出 ，xr (mn) 代表 第 二 个 隐藏 层 的 输出 ， 以 此 类 推 。 
向 量 z (2 代表 输出 层 的 和 输出。 那么，RMLP 通常 对 输入 向 景 afz) 的 响应 的 动态 行为 可 用 如 
下 联 立 方程 组 撒 述 ; 




















xi(n+l)= ICxin)y, aa)) 
人 0 015 .4) 
(+1)= 中 of(Xo(z)， Xe(z+1)) 
其 中 人) (你 )，…， 四 (，) 分 别 表示 代表 RMLP 第 一 个 隐藏 层 、 第 二 个 隐藏 层 、 
0 和 输出 层 的 激活 函数 ; 天 表示 网 络 中 聊 藏 层 的 数目 。 
这 里 描述 的 RMLP 包括 图 15-3 的 Elman 网 络 和 图 15-2 的 状态 空间 模型 ， 因 为 RMLP 的 
输出 层 或 任何 降 藏 层 没有 限定 其 激活 函数 的 具体 形式 。 





单元 延迟 模块 





























有 多 个 隐藏 层 的 
多 层 感知 器 
图 15-4 回归 多 层 感知 器 
二 阶 网 络 
在 描述 图 15-2 的 状态 空间 模型 中 ， 我 们 用 “ 阶 " 来 表示 隆 藏 神经 元 的 数目 ， 其 输出 通过 
单元 延迟 模块 反馈 回答 入 层 。 


但 是 ， 术 语 " 阶 "有 时 用 来 表示 如 何 定义 神经 元 的 诱导 局 部 域 的 方法 。 例 如 ， 一 个 多 层 感 
知 器 神经 元 记 的 诱导 局 部 域 加 定义 为 
斤 = 了 所 二 ost (15.5) 
其 中 % 源 于 隐藏 层 神经 元 7 的 反馈 信号。 上 是 输入 层 应 用 于 节点 ; 的 源 信和 导 ;， zx 表示 网 络 中 
对 应 的 窗 触 权 值 。 将 式 (15.5) 所 描述 的 神经 元 称 为 一 阶 神经 元 。 但 是 。 有 时 诱导 局 部 域 内 
由 乘法 组 成 ， 表 示 为 
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全 = 3 os (15.6) 
我 们 称 这 里 的 神经 下 为 二 阶 神经 元 。 二 阶 神经 元 夺 用 了 单一 的 权 值 ws ， 它 和 输入 节点 z，/ 
连接 起 来 。 
二 阶 神经 元 组 成 基本 的 二 阶 甫 归 网 络 (Giles et al. ,1990) ， 它 的 一 个 例子 如 图 15-5 所 示 。 
岗 络 接受 按时 间 顺 序 的 输入 序列 ， 并 日 按 如 下 两 个 式 子 定义 的 动 廊 学 演化 ; 
(n) = 六 + oowxi(n)o(n) (15.7) 

















(e+1) = oln)) = TENCLTCJJ (15.8) 


其 中 wmn) 为 隐藏 神经 元 上 的 诱导 局 部 域 、&% 为 相关 联 的 偏 置 ， 因 (am ) 为 神经 元 大 的 状态 
《输出 )， 必 (nm) 是 应 用 于 源 节点 了 的 输入 ，tow 为 一 阶 神经 元 天 的 色 值 。 

15-5 所 示 的 二 阶 递归 阅 络 的 一 个 特点 是 乘积 二 (na) 廿 (ma) 代 表 一 对 ;状态 ， 输 入 |， 一 
个 正 的 权 值 we 表示 从 | 状态 ， 输 入 ;到 | 下 一 个 状态 1 的 状态 转移 的 出 现 ， 而 权 值 为 负 表示 没 
有 转移 出 现 。 状 态 转移 描述 如 下 : 

















8 ,一 ) = 光 《15.9) 
单位 延迟 












































图 15-5 二 阶 递 归 网 络 ;为 简单 起 见 省 略 神 经 元 的 含 轩 连接 
网 络 有 2 个 输入 利 3 个 状态 神经 元 ， 因 此 项 要 3x2=6 个 滋 法 器 
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根据 这 种 关系 ， 二 阶 网络 可 以 用 来 表示 和 学 习 确 定性 有 限 状态 自动 机 f (deterministie finite- 
stafc automata，JDFA) ，DPFA 是 一 个 有 确定 状态 数目 的 信息 处 理 装置 。 在 15.5 节 避 以 发 现 更 多 
关于 褐 经 网 络 和 自动 机 关系 的 细节 。 

本 节 讨 论 的 递归 网 络 的 体系 结构 强调 利用 全 局 反馈 。 如 在 简介 中 所 提 到 的 ， 递 归 网 络 也 
可 能 只 有 一 个 局 部 反馈 。 对 后 面 这 种 递 打 网 络 性 质 的 概述 在 Tsoi and Back(1994) 中 提 到 ; 也 
可 参见 习题 15.7。 


15.3 状态 空间 模型 


在 动态 系统 的 数学 描述 上 ， 状 态 的 概念 起 着 重要 的 作用 。 动 态 系统 的 状态 形式 地 定义 为 

一 些 数量 的 全 合 ， 它 报 括 为 了 惟一 地 描述 系统 将 来 行为 所 必需 的 系统 过 去 行为 的 全 部 信息 ， 

除了 用 于 输入 激励) 产生 的 外 部 效果 之 外 。4 x 1 向 量 x(m) 表 示 非 线性 离散 时 间 系 统 的 状 

态 - 严 x1 向 量 un) 表示 用 于 系统 的 输入 ，p x 1 向 量 y(m) 表 示 相 应 的 输出 。 使 用 数学 语 
言 ， 假 设 无 唆 声 ， 系 统 的 动态 行为 用 非 线性 方程 组 

COz+1 = COWxn) +WwWian)) 《15.10) 

yn = Cx(m) 《15.10 

描述 ， 其 中 震 . 是 9 x 4 乱 阵 ， 妇 ,是 9 x (+1) 抱 阵 ，C 是 p xy 矩阵 :9 民 "一 向 是 对 角 

映射 ， 由 


























1 op( zh) 
9:| 一 | en) (15.12) 
和 9(xo) 


描述 ， 表 示 某 种 无 记忆 的 分 量 非 线 性 p; 民 -> 民 。 空 间 展 " ，R' 和 全" 分 别称 为 给 入 空间 、 状 
态 空间 和 输出 空间 。 状 态 空间 的 大 小 ( 即 9 是 系统 的 阶 。 因 此 图 15-2 的 状态 空间 模型 是 m 
给 入、 器 输出 前 9 阶 回归 模型 。 式 (15.10) 是 模型 的 过 程 方程 ， 式 (15.11) 是 度量 方程 。 过 程 
方程 (15.10) 是 式 (15.2) 的 特殊 形式 。 
建立 在 使 用 静态 多 层 感 知 器 和 两 个 延迟 线 记 亿 基 础 上 的 图 15-2 的 递归 网 络 提供 一 种 实 
现 式 (15.10) 和 (15.12) 非 线性 反馈 系统 的 方法 。 注 意图 15-2， 在 多 层 感 知 器 的 神经 元 中 ， 只 
有 那些 通过 延迟 将 其 输出 反馈 到 输入 层 的 神经 元 与 确定 递归 网 络 的 状态 有 关 。 因 此 这 就 把 输 
出 度 的 神经 元 排除 在 状态 的 定义 之 外 。 
对 于 年 阵 略 . ，W 利 C 的 解释 ， 以 及 对 非 线 性 函数 p(.)， 可 以 作 如 下 陈述 : 
” 算 阵 研 。 代表 隐藏 层 的 4 个 神经 元 连接 到 输入 层 的 反馈 节点 的 突 触 权 值 。 矩 阵 W， 
代表 连接 到 输入 层 源 节点 的 这 些 隐 藏 神经 元 的 突 触 权 值 。 这 里 假设 隐藏 屋 神经 元 的 
偏 奸 被 包括 在 权 值 矩阵 W, 中 。 
” 乱 阵 忆 代 表 输 出 层 中 连接 到 隐 含 神经 元 的 P 个 线性 神经 元 的 突 触 权 值 。 这 里 假设 输 


























出 神经 元 的 篇 轩 被 包括 在 权 值 矩阵 C 中 。 
。 非 线性 函数 p( . ) 代 表 隐 芒 神 经 元 的 sigmmoid 激活 函数 。 激 活 函数 通常 具有 双 昌 正 切 的 
形式 
9(z) = uanh(z) = 二 二 015.13) 


或 logistic 函数 的 形式 
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9(xz) = 《15.14) 


1 二 
式 (15.10) 和 (15.11) 描 述 的 状态 空间 模型 递归 网 络 的 一 个 重要 性 质 ， 是 它 能 适 近 一 类 很 
天 范围 的 非 线性 动态 系统 。 但 是 ， 这 种 到 近 只 在 一 个 状态 空间 的 紧 子 集 和 丰 跟 的 时 间 区 间 的 
情况 下 有 效 ， 所 以 感 兴趣 的 动态 特征 并 没有 反映 出 来 (Sontag,1992)。 
例 苹 ,1 为 了 表示 扼 阵 4.，Wn 和 CC 的 组 成 ， 考 虑 图 15-6 所 示 的 完全 连接 递归 网 络 ， 其 


中 反馈 路 径 来 外 隐藏 神经 元 。 在 这 个 例 中 ， 严 =2，g=3，P = 1。 夭 阵 W。，W, 定义 如 下 : 


39 站 
， 了 = 0 oa 


























We = | 2 2m 22 
3 0 了 归 2 
其 中 矩阵 允 , 的 第 一 列 册 为， 刀 ， 罗 组成， 分 别 代表 神经 元 1，2，3 的 仿 置 项 。 和 矩阵 C 是 一 
个 行 向 量 ， 定 义 为 CC= 1L1.0,0]。 量 [| 
































(YI 输出 
了 (9 




























me+ 了 










本 _ae+D 
aa(m 
7 


图 1S-6 有 两 个 输入 、 两 个 隐藏 神经 元 和 一 个 输出 神经 元 的 完全 连接 递归 网 络 


输入 层 计 筑 层 


可 控 和 性 和 可 观察 性 
研 完 系统 理论 时 ， 稳 定性 、 可 控 性 和 可 观察 性 以 各 自 根本 的 方式 为 突出 特征 。 本 节 讨 论 
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可 控 性 和 可 观察 性 ， 央 为 它们 经 常 被 放 在 一 起 处 理 ， 移 定性 在 前 一 章 已 讨论 ， 不 再 详 述 。 

前 面 已 提 到 过 ， 许 多 递归 网 络 能 用 图 15.2 所 示 的 状态 空间 模型 表示 ， 其 中 状态 定义 为 
通过 一 系列 延迟 单元 反馈 回 输 入 层 的 隐藏 层 和 输出。 在 此 背景 下 ， 知 道 递 归 网 络 是 否 可 控 和 可 
观察 是 很 重要 的 。 可 控 修 是 指 我 们 能 近 控 制 递归 网 络 的 动态 行为 。 可 观察 性 是 指 我 们 能 否 观 
察 到 应 用 于 递归 网 络 的 控制 结果 。 从 这 种 意义 来 说 ， 可 观察 性 是 可 控 性 的 对 倘 。 

说 递归 网 络 是 可 按 的 ， 是 指 在 有 限时 间 步 内 ， 思 始 状态 可 以 控制 到 任意 想 达 到 的 状态 ; 
输出 与 这 个 定义 无 关 。 说 递归 网 络 是 可 观察 的 ， 是 指 在 有 限 的 输入 /输出 度量 中 网 络 的 状态 
可 以 确定 。 对 递归 网 络 可 控 性 和 可 观察 性 的 精确 的 论述 不 在 本 书 的 讨论 范围 = 。 我 们 将 自己 
限制 在 可 控 性 和 可 观察 性 的 局 部 形式 。 局 部 是 指 将 这 些 概念 应 用 于 网 络 平衡 状态 邻 威 的 意义 
下 《Levin and Narendra,1993) 。 

如 果 对 于 输入 u， 它 满足 条 件 




















王 = 9(AX + BU) (15.1S) 
就 说 状态 六 是 方程 (15.10) 的 一 个 平衡 状态 。 不 失 一 般 性 ， 令 = 0 和 豆 =0。 那 么 平衡 状态 由 
0 = 中 (0) 


描述 。 换 句 话说， 原点 (0,0) 代 表 平 衡 点 - 
同样 不 失 一 般 人 性 ,我 们 可 以 限制 到 一 个 单 输 入 、 单 输出 (single inpat，single output， 
SISO) 系 统 ， 简 化 我 们 的 论述 。 可 以 把 方程 (15.10) 和 (15.11) 分 别 改 写 为 
(RAT+T) = 四 ( 有 (n+ WE)) 【15.16) 
y(Cn) = erx(m) (1S.17) 
其 中 中 和 ee 都 是 9 xl 列 向 量 ，z (na) 是 标量 和 输入，y (an) 为 标量 输出 。 由 于 p 对 应 于 式 
《15.13) 或 式 (15.14) 的 sigmoid 函数 是 连续 可 微 的 ， 我 们 可 以 通过 在 平衡 点 &=0 和 =0 的 附 
近 把 式 (15.16) 展 开 成 Taylor 级 数 而 使 其 线性 化 ， 并 保留 一 防 项 ， 得 到 
Sx(n+1) = 四 (0)W,Sx(n) + 中 (0)wsSn(n) 《15.18) 
其 中 8z(n) 和 8ukn) 是 分 别 应 用 到 状态 和 输入 的 小 位 移 。9 x 9 矩阵 %(0) 是 g(v) 在 v=0 时 
对 变量 * 的 Jacobi 行列 式 。 我 们 可 以 描述 线性 化 的 系统 如 下 : 
































ax(md+1) = Asx(n) +bau(n) (15.19) 
3y(m) = erSx(n)》 (15.20) 
其 中 9x9 和 抢 阵 入 和 9x1I 列 向 最 b 分 别 定 义 如 下 : 
入 = 中 (0)W。 (15.21) 
b = (0)w (15.22) 
状态 方程 (15.19) 和 (15.20) 是 标准 的 线性 形式 。 因 此 我 们 可 以 利用 线性 动态 系统 的 可 控 性 和 


可 观察 性 的 众所周知 的 结果 ， 它 们 是 数学 控制 论 的 一 个 标准 部 分 。 
局 部 可 控 性 


从 线性 化 的 方程 (15.19)， 重 复 迭 代 产 生 下 列 结果 : 
Sx(n+1) = 和 sx(n)+bsu(n) 
Sx(m+2) = 入 3x(m+1)+bSuz(n+l) 
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Bx(n+g)=As*bsx(n)+A? biz(z+9g-1+…+Absa(n+l)+hbsz(n) 
其 中 9 是 状态 空间 的 维 数 。 相 应 地 ， 我 们 可 以 说 (Levin and Narendra.1993): 
方程 (15.19) 表 示 的 线性 化 系统 是 可 控 的 ， 如 果 短 阵 
ML = [Ab,…，Ab,b] 《5.23) 
衣 秩 9， 即 满 秩 ， 内 为 这 样 线性 化 的 过 程 方程 (15.19) 有 惟一 的 解 。 
抵 阵 ML 称 为 线性 系统 的 可 控 性 给 阵 。 
设 方程 (15.16) 和 (15.17) 描 述 的 递归 网 络 由 一 系列 输入 ws(a) 驱 动 ， 其 定义 为 
un) = [an)ufa+lean+e-1] (15.24) 








因此 可 以 考虑 映射 
GCCn), un)) = (xn)x(P+D)) (15.25) 
其 中 G: 区 ' 一 区 ?。 在 习题 15.4 证 明 ， 
， 状态 xCn+ 9) 是 其 过 去 值 xn) 和 输入 es(a)，xz(n+1)，…，xztn+qg-l1) 的 庶 套 非 
线性 函数 。 
”xn+g) 关 于 由 (n) 的 Jacobi 和 矩阵 在 原点 的 值 等 于 式 (15.23) 的 可 控 性 抵 阵 M.。 
我 们 可 以 把 映射 G 关于 uw (mn) 和 x(m)》 的 Jaeobi 第 阵 在 原点 (0，0) 的 值 表示 为 


( 强 号 ) (号 丫 ) [ 愉 ] 


Te (全 seDj | 世 
ni) om Da) ，om 


其 中 工 是 单位 乍 阵 ，0 是 零 抢 阵 ， 项 买 是 不 感 兴趣 前 部 分 。 因 为 它 的 特殊 形式 ，Jw 的 行列 
式 等 于 单位 素 阵 工 的 行列 式 (等 于 1) 和 可 控 性 矩阵 M. 的 行列 式 乘积 。 如 果 M. 是 满 秩 矩 阵 ， 
那么 项 9 也 是 满 秩 的 。 

为 了 继续 处 理 ， 我 们 需要 引用 反 范 数 定 型 ， 它 可 以 陈述 如 下 (Vidyasagar,1993) : 

考虑 映射 f; 区? 一 区: ， 假 设 陕 射 了 的 每 一 个 分 量 对 于 它 的 变量 在 平衡 点 萝 扣 网 都 是 可 
微 的 ， 并 令 而 = 玫 z)。 那 么 疗 在 开 和 全 叹 CC 网 包含 面 及 VC 司 包 含 轴 ， 使 得 王 为 包 到 外 上 的 微 
分 同 肛 。 如 果 下 还 是 光滑 的 ， 那 么 这 映射 全 : 民 ' 一 民 ' 也 是 光滑 的 ， 即 了 是 光滑 微分 同 肛 。 

映射 f 型 一 站 如 果 满 足下 列 条 件 ， 则 说 它 是 肾 到 Y 上 的 微分 同 胚 : 

1.fGL)=Y 。 

2. 肌 射 和 L 一 外 是 一 对 一 的 ( 即 可 邀 的 )。 

3, 道 映射 全 :，Y 一 他 的 每 个 分 量 关 于 它 的 变量 是 连续 可 微 的 。 

回 到 可 控 性 的 问题 ， 我 们 将 对 式 (15.25) 定 义 的 映射 验证 满足 反 函 数 定理 中 的 T(QL ) = 站 
条 件 。 应 用 反 函 数 定理 ， 如 果 可 控 性 矩阵 M. 的 秩 为 ?9， 可 以 说 局 部 存在 一 个 反映 射 ， 定 义 
为 








(15.26) 








(xCn) ,xzt+da)) = GCCn) an)) (15.27) 
式 (15.27) 实 际 上 指出 存在 一 个 输入 序列 能 局 部 虹 动 网 络 在 9 个 时 间 步 中 从 状态 x(m) 到 
xX(a+dho 所 以 ， 我 们 可 以 正式 陈述 局 部 可 控 性 定理 如 下 : 
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假定 递归 网 络 由 式 (15.16) 和 (15.17) 定 又 ， 它 在 原点 ( 即 平衡 皮 ) 酝 近 的 线性 化 方程 由 
(15.19) 和 (15.20) 定 义 。 如 果 线 性 化 系统 是 可 挖 的， 别 递 归 网 络 是 在 原点 附近 是 局 部 可 控 
的 。 


局 部 可 观察 性 


重复 使 用 线性 化 的 方程 (15.19) 和 (15.20) ， 可 得 
8Sy(a) =crsx(n) 
Syr(na+I) =cersx(a+1) 
=e7aA3Sx(m) + erbiu(n) 





3y(2+4d-1) =erAr 3Sx(n)+erA bsz(n)+…+erAboz(p+r9-3) 
+erbsu(n+9-2) 
其 中 9 是 状态 空间 的 维 数 。 所 以 ， 我 们 可 以 陈述 (Levin and Narendra, 1993) : 
方程 (15.19) 和 (15.20) 描 述 的 线性 化 系统 是 可 观察 的 ， 如 打手 阵 
M。= [ceA ec(A (15.28) 





的 秩 为 9， 即 满 秩 。 


矩阵 M. 称 为 线 星系 统 的 可 观察 性 矩阵 。 
令 用 于 驱动 由 式 〈15.19) 和 (15.20) 描 述 的 递归 网 络 的 一 系列 输入 定义 如 下 : 





mi(a) = [zln) un+lyata+ed-2)]7 0415.29) 
相应 地 ， 令 
ys(na) = [y(n)y(at+1ly(na+g 一 1 (15.30) 
代表 由 初始 状态 x(n) 和 输入 序列 miCn) 产 生 的 输出 向 量 。 那 么 我 们 可 以 考虑 映射 
Hu ai(n),XCa)) = (uai(n),ye(mn)) (15.31) 


其 中 了: 车” 一 司 ? 。 在 习题 .5 中 证 明 y (mn) 对 x(z) 的 Jacobi 矩阵 在 原点 的 值 等 于 式 
415,28) 的 可 观察 失 阵 Mo。 因此 瑟 关 于 u-:(z) 和 xna) 的 Jacobi 邱 阵 在 原点 (0，0) 的 值 可 表 
示 为 




















(3 ] ( 泣 地 ) 

Lo 9uvri(a)) oo um) oo 工 买 

四 2 
KR) oo (二 汉 | om 


其 中 和 同样 为 不 感 兴趣 的 部 分 。 格 四 的 行列 式 等 于 单位 矩阵 工 的 行列 式 (等 于 1) 和 和 抵 阵 ML 
的 行列 式 的 乘积 。 如 果 M。 是 满 秩 ， 那 么 耻 凡 也 是 。 引 用 反 函 数 定理 ， 可 以 说 如 果 线 性 化 系 
统 的 可 观察 性 答 阵 M., 是 满 秩 的 ， 则 存在 一 个 道 映射 ， 定 义 为 

Castz) xm))》 = 开 (Ca im) yy())》 《15.33) 
实际 上 ， 这 个 等 式 表明 在 原点 的 局 部 邻 域 ，x(nm) 是 由 (za) 和 y,(m) 的 非 线性 函数 ， 非 线性 
函数 是 递归 网 络 的 观察 器 。 因 此 局 部 可 观察 性 定理 可 正式 地 陈述 如 下 (Levin and Narendra， 
1993) : 
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宙 式 (15.16) 和 (15,.17) 所 定义 的 递归 网 络 ， 令 它 在 原点 ( 即 平衡 点 ) 队 近 线 性 化 的 形式 由 
式 (15.19) 和 (15.20) 所 定义 。 如 果 线 性 系统 是 可 观察 的 ， 则 第 归 网 络 在 原点 附近 是 可 观察 的 。 

例 15.2 考虑 具有 和 挎 阵 A = aeI 的 状态 空间 模型 ， 这 里 e 是 标量 ， 工 是 单位 敌阵 。 式 
(415.23) 的 可 控 性 矩阵 M. 简化 为 





M. = alb,…,b,b] 
矩阵 的 秩 是 t。 办 此 ， 有 具有 上 阵 A 的 值 的 线性 化 系统 是 不 可 控 的 。 
在 式 (15.28) 中 置 A = aI， 得 到 可 观察 性 矩阵 
ML = af ele，……e] 
它 的 铁 也 为 1。 这 个 线性 系统 也 是 不 可 观察 的 。 三 


15.4 有 外 部 输入 的 非 线性 自 同 归 模 型 


考虑 单 输入 单 输出 的 递归 网 络 ， 其 行为 由 状态 方程 组 (15.16) 和 (15.17) 描 述 。 给 定 这 种 
状态 模型 ， 希 望 将 它 修 改 为 一 个 输入 - 输出 模型 ， 作 为 代表 递归 网 络 的 一 个 等 价 表示 。 
利用 式 (15.16) 和 (15.17)， 输 出 y(n+ 9) 可 以 用 状态 xm) 和 输入 向 量 u (z) 才 示 为 ( 参 
看 习题 15.8) 
7(n+39) = 下 (xn)ur(n)) (15.34) 
其 中 9 是 状态 空间 的 维 数 ，@: 降 * 一 民 。 候 设 递归 网 络 为 可 观察 的 可 以 用 局 部 可 观察 性 定 
理 得 到 





x(m) = 更 (ye(n),aus(Cn)) (15.35) 
其 中 映射 于: 略 * 一 民 ' 。 将 式 (15.35) 代 人 (15.34)， 得 到 
7(a + 9) = 加 (于 (7 (na) um))agn)) 
= FF(ys Cr) us(na)) (15.36) 
其 中 um-:(n) 包 含 在 m(m) 的 最 前 面 的 4 - 1 个 元 素 里 ， 非 线性 映射 F: 区" 一 员 和 和 ， 更 有 
关 。 用 式 (15.30) 和 (15.29) 给 出 的 yj,(z) 和 u(n) 定 义 ， 可 以 将 式 (15.36) 扩 展 为 
7(m+g) = Fy(+g-1)7y(nyaz+g -TCD)) 
用 m-9+1 代 替 叶 ， 可 以 得 到 
Y{(R+1) = 屎 (7(R) vs7(P 一 8 十 1) (ad+1)) (1S.37) 
必须 撕 出 ， 对 于 这 全 非 线性 映射 : 区? 一遍， 只 有 尖 现 在 的 输出 y(n + 1) 由 过 去 值 
Y(a)，…,y(m-g+i) 以 及 现在 和 过 去 的 输入 上 (ay，…，z(a- gt+1l) 所 惟一 决定 ， 这 个 
肌 射 才 是 存在 的 。 因 为 这 个 输入 - 输出 表示 等 价 于 方程 组 (15.16) 和 (15.17) 的 状态 模型 ， 因 
此 递归 网 络 必须 是 可 观察 的 。 等 价 的 实际 含义 是 图 15-1 的 NARX 模型 ， 它 的 全 局 反馈 限制 
在 输出 神经 元 ， 实 乓 上 它 是 能 够 模拟 图 15-2 的 完全 回归 状态 空间 模型 (假设 m=1，p= 1)， 
并 且 它们 的 输入 - 输出 行为 没有 差别 。 
例 15.3 ”再 考虑 图 15-6 描述 的 完全 连接 递归 网 络 。 对 于 我 们 目前 的 讨论 ， 假 设 其 中 一 
个 输入 ， 比 如 说 到 (zz)， 间 减 为 0， 这 样 我 们 有 一 个 单 输入 、 单 输出 的 网 络 。 如 果 网 络 是 局 
部 可 观察 的 ， 可 以 用 图 15-7 的 NARX 模型 代替 完全 连接 网 络 。 昌 然 NARX 模型 仅 有 产生 于 
输出 神经 元 的 有 限 反馈 这 种 情况 ,而 图 15-6 的 完全 连接 递归 网 络 的 多 层 感知 加 周 围 的 到 锁 
产生 于 三 个 隐藏 /输出 神经 元 ， 但 是 这 种 等 价 性 还 是 成 立 的 。 量 
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图 15-7 具有 3 个 隐藏 神经 元 的 NARX 网 络 


45.5 递归 网 络 的 计算 能 力 


如 图 1$-2 所 示 的 状态 空间 模型 和 图 15-1 的 NARX 模型 递归 网 络 具 有 模拟 有 限 状态 自 
动机 的 因 有 能 力 。 自 动机 表示 像 计算 机 一 样 的 信息 处 理 设备 的 抽象 。 实 际 上 自动 机 和 神经 网 
络 有 久远 的 渊源 必 。Minsky 在 他 1967 年 的 书 (p.55) 有 如 下 重要 的 说 明 ; 

每 一 有 限 状态 机 等 价 于 某 神 经 网 络 ， 并 且 可 以 由 它 模拟 。 也 就 是 说 ， 给 定 一 有 限 状态 机 
贡 ， 可 以 建立 一 个 神经 网 络 N 儿 ， 落 将 它 看 做 一 个 黑箱 机 器 ， 则 其 行为 酷似 妇 。 


递归 网 络 的 早期 工作 用 硬 的 阔 值 逻辑 作为 神经 元 的 激活 函数 而 不 用 软 的 sigmoid 函数 。 

也 许 是 Cleeremans(1989) 第 一 个 报道 了 展示 递归 网 络 能 和 否 学 会 由 小 型 有 限 状 态 语法 所 包 
含 的 例外 (偶发 性 ) 的 试验 。 特 别 地 ， 由 语法 导出 的 字符 训 赋 给 简单 递归 网 络 (图 15-3)， 需 
要 它 在 每 一 步 预 测 下 一 字母 。 预 测 是 上 下 文 相 关 的 ， 因 为 每 一 个 在 语法 中 出 现 两 次 的 字母 每 
次 它 的 后 继 字母 都 不 同 。 这 表明 网 络 能 够 在 隐藏 神经 元 中 发 展 对 应 自动 机 (有 限 状态 机 ) 状 态 
的 内 部 表示 。 在 Kremer(1995) 中 给 出 正式 的 证 明 ， 表 明 简 单 递 归 网 络 有 和 任何 有 限 状 态 机 一 
样 的 计算 能 方 。 

在 一 般 意 义 下 ， 递 归 网 络 的 计算 能 力 体 现在 两 个 主要 定理 : 

定理 I 工 《Siegelmann and Sontag，1991) 所 有 图 灵机 都 可 由 建立 在 用 sigmoid 激活 表 数 的 
神经 元 上 的 完全 连接 递归 网 络 模拟 。 

图 灵机 是 Turing(1936) 发 明 的 抽象 计算 工具 。 它 由 图 15-8 所 示 的 三 个 功能 块 构成 : (1) 
控制 单元 假设 任何 可 能 的 有 限 状 态 之 一 ; (2) 线 性 带 (假设 在 两 个 方向 上 是 无 限 的 ) 被 划分 成 
分 离 的 方块 ， 每 个 方块 都 可 以 存储 一 个 单一 的 符号 ， 这 些 符号 是 从 一 个 有 限 的 符号 集合 中 取 
出 的 ; 《3) 读 写 头 沿 着 线 狂 带 移动 ， 并 从 控制 单元 得 到 信息 和 把 信息 传送 到 控制 单元 (Fischler 
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and firschein，1987)。 从 给 出 的 讨论 足以 说 明 图 灵机 是 一 个 和 任何 强大 的 计算 外 具有 一 样 功 
能 和 能 力 的 抽象 物 。 这 个 思想 称 为 Church- 制 单元 
Turng 假设。 

定理 了 (siegelmam et al, ,1997) 对 
于 NARX 网 络 ， 若 具有 一 隐藏 层 单元 ， 其 
激活 函数 为 有 界 和 单 侧 饱 和 的 并 且 有 一 个 
线性 输出 神经 元 ， 那 么 不 计 线 性 延迟 
【linear slowdown)， 它 可 以 模拟 用 完全 连接 
的 具有 有 界 且 单 侧 饱和 的 洲 活 台数 的 甫 归 图 15.8 mang 机 
网 络 。 


“线性 延迟 "是 指 如 果 --~ 个 完全 连接 的 有 A 个 神经 元 的 递归 网 络 在 时 间 7 内 计算 一 个 我 
们 感 兴趣 的 任务 ， 那 么 等 价 的 NARX 网 络 所 占用 的 总 时 间 是 (m + 1)7。 函 数 p(' ) 如 果 满 足 
下 列 条 件 则 说 它 是 有 界 且 单 边 饱 和 的 (bounded,one-sided saturatied ,BOSS)》 函 数 : 

. 函数 g(… ) 值 域 有 界 ; 即 es 近 b(zr)<p， 对 于 所 有 *E 轩 。 

2. 函数 9%() 是 左 饱 和 的 ; 即 存 在 值 * 和 8$， 对 于 所 有 的 xs*， 有 zx)= S。 

3. 函数 pf ) 是 非常 数 的 ; 即 存在 不 相同 的 两 个 数 zx 利 %> ， 满 足 (zi ) 关 9(zz)o 

阅 值 (Heaviside) 和 分 段 线性 函数 满足 BOSS 条 件 。 但 是 在 严格 意义 上 siemoid 函数 不 是 -一 
个 BOSS 函数 ， 因 为 它 不 满足 条 件 2。 但 是 做 一 个 小 的 修改 ， 它 可 以 满足 BOSS 条 件 ， 即 写成 
《在 logistic 函数 的 情况 下 》 


线 任 带 





1 
en) - 全 = 允 于 > ， 
0 对 于 < 
其 中 * 展 。 实 际 上 ， 在 *<* 时 logistic 聊 数 是 截断 的 。 
作为 定理 工 和 定理 开 的 推论 ， 我 们 可 以 得 到 (Giles,1996) ; 





























有 一 个 隐藏 层 神经 元 且 激 活 邓 数 为 BOSS 子 
数 及 -一 个 线性 栓 出 神经 元 的 NARX 网 络 是 Iuring | Taing 机 人 一 人 
等 价 的 。 

图 15-9 给 出 定理 工 和 定理 开 及 这 个 推论 的 1 

解 。 但 是 ， 必 须 注意 当 网 络 体系 结构 受到 限制 

时 ， 递 归 网 络 的 计算 能 力 就 不 再 记 立 。 如 同 在 
Sperduti(1997) 摘 述 的 一 样 。 在 注释 17] 中 给 出 受 NARYX 风 结 
限制 的 网 络 体系 结构 的 参考 文献 。 


图 45-9 定理 工程 定理 下 及 它们 的 推论 的 图 解 
15.6 学 习 算法 
现在 来 研究 递归 网 络 的 训练 问题 。 第 4 章 讨论 过 普通 (静态 ) 多 层 感知 器 的 两 种 方式 : 集 
中 方式 和 串 行 方式 。 在 集中 方式 中 ， 网 络 的 敏感 庶 是 在 调整 网 络 的 自由 参数 前 针对 整个 训练 
集 计 算 的 。 在 串 行 方式 中 ,参数 的 调整 是 在 给 出 训练 集 的 每 一 个 模式 的 表示 之 后 进行 的 。 同 
样 ， 有 两 个 训练 递归 网 络 的 方式 如 下 : 
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1. 分 回合 (epochwise) 的 训练 。 在 给 定 的 回合 递归 网 络 从 初始 状态 出 发 到 达 一 个 新 的 状 
态 后 停止 ， 此 时 训练 亦 停止 ; 然后 对 于 下 一 个 回合 又 重新 设置 一 个 新 的 初始 状态 。 初 始 状态 
在 每 个 训练 时 期 并 不 总 是 一 样 的。 重要 的 是 对 于 新 的 回合 的 初始 状态 和 网 络 在 此 前 一 个 回合 
到 达 的 状态 不 一 样 。 例 如 ， 考 虑 用 递归 网 络 模拟 有 限 状态 机 的 运行 ， 即 -个 设备 可 区 分 的 内 
部 配置 (状态 ) 在 数量 上 是 有 限 的 。 在 这 种 条 件 下 ， 有 理由 使 用 分 回合 的 训练 ， 因 为 我 们 有 很 
大 的 可 能 性 用 递归 网 络 去 模拟 机 器 中 大 量 的 不 同 的 初始 状态 和 不 同 的 最 终 状 态 的 集合 。 在 递 
归 网 络 的 分 同 合 训 练 中 ,“ 回 合 "与 一 般 普 通 多 层 感知 器 中 使 用 的 意义 不 同 。 用 现在 的 术语 ， 
递归 网 络 的 回合 对 应 普通 多 层 感 知 器 的 一 个 训练 模式 。 

2. 连续 训练 。 训 练 的 第 二 种 方法 适合 于 没有 可 用 的 重 轩 状 态 和 /或 需要 在 线 学 刁 的 情况 。 
连续 训练 的 显著 特征 是 网 络 学 习 和 被 网 络 处 理 的 信号 处 理 同 时 进行 。 简 单 地 说 ， 学 习 过 程 永 
不 停止 。 例 如 ， 考 虑 广 递归 网 络 去 对 一 个 非 稳 态 过 程 如 语音 信号 建 借 。 在 这 种 情况 下 ， 网 络 
的 连续 运行 不 能 提供 方便 的 时 刻 以 决定 何 时 停止 训练 而 重新 开始 用 网 络 不 同 自由 参数 的 值 。 
记 住 这 两 种 训练 的 方式 ， 在 下 面 的 两 节 中 我 们 将 撕 述 递归 网 络 的 不 同 的 学 习 算 法 ， 可 概 



































述 如 
“在 15.7 节 讨论 的 通过 时 间 的 反 向 传播 (back-propagation-tbrough-time) 算 法 是 在 这 样 的 前 
提 下 提出 的 ， 即 递归 网 络 的 时 序 操 作 可 以 展开 为 一 个 多 层 感 知 器 。 这 就 为 标准 反 向 传 
播 算法 的 应 用 铺 平 了 道路 。 通 过 时 间 的 反 向 传播 算法 可 以 用 分 回合 的 方式 、 连 续 方式 
或 两 种 方式 的 组 合 来 实现 。 
"在 15.8 节 讨论 的 实时 递归 学 习 算 法 是 从 方程 (15.10) 和 (15,11) 描 述 的 状态 空间 模型 导 
出 的 。 
两 种 算法 有 很 多 共同 点 。 首 先 它们 都 是 基于 梯度 下 降 的 方法 ， 因 此 代价 函数 的 瞬时 值 ( 基 于 平 
方 误差 准则 ) 对 网 络 的 突 触 权 值 被 最 小 化 。 第 二 ， 它 们 实现 都 很 简单 ， 但 可 能 收敛 很 提 。 第 三 ， 
它们 是 相关 的 ， 因 为 通过 时 间 的 反 向 传播 算法 的 信号 流 图 的 表示 ， 能 够 由 实时 递归 学 习 算法 的 
一 确定 形式 的 信号 流 图 的 表示 经 转 置 而 得 到 (Lefebve,1991; Beaufays and Wan,1994)。 
建立 在 梯度 下 降 基础 上 的 实时 (连续 ) 学 习 使 用 最 少 可 用 信息 ， 即 代价 函数 关于 被 调整 参 
数 向 量 的 梯度 的 瞬时 佑 值 。 可 以 通过 利用 Kaiman 的 滤波 理论 加 速 学 习 过 程 ， 它 更 有 效 地 利 
用 包含 在 训练 数据 中 的 信息 。 在 15.10 节 简 单 介绍 解 耦 扩展 的 Kalman 滤波 器 ， 通 过 它 我 们 
可 以 处 理 动态 学 习 任 务 ， 而 对 用 以 梯度 下 降 为 基础 的 方法 ， 这 将 会 是 非常 困难 的 。 在 15.9 
节 给 出 Kalman 恋 波 器 的 简 过 回顾。 注意 解 耦 扩展 的 Kalman 滤波 器 既 可 以 应 用 于 静态 前 馈 网 
络 ， 亦 可 应 用 于 递归 网 络 。 


一 些 启发 


在 进行 刚才 提 到 的 新 学 习 算法 的 描述 之 前 ,我们 罗列 一 些 对 于 改进 递归 网 络 训练 的 启 
发 ， 这 些 训 练 涉 及 梯度 下 降 方法 的 使 用 (Gilea,1996) : 
* 训练 样本 应 该 按照 字典 顺序 排序 ， 最 短 的 符号 字符 串 首先 提交 给 网 络 。 
" 训练 应 该 开始 于 一 个 小 的 训练 样本 集 ， 尔 后 随 着 训练 进行 逐步 增加 样本 。 
* 只 有 当 正 在 被 网 络 处 理 的 训练 样本 的 绝对 误差 大 于 某 一 指定 的 标准 时 才 应 该 更 新 网 络 
的 突 触 权 值 。 
“ 在 训练 过 程 中 建议 使 用 权 值 衰减 ; 权 值 衰减 作为 复杂 性 正则 化 的 一 个 粗略 的 形式 ， 在 
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第 4 章 讨论 。 
第 个 启发 有 特别 重要 的 意义 。 如 果 可 以 实现 的 话 ， 它 提供 减轻 在 采用 梯度 下 降 方法 训 
练 递归 网 络 时 出 现 的 消失 梯度 问题 。 这 个 问题 在 15.12 节 讨 论 。 
15.7 通过 时 间 的 反 上 向 传播 
用 于 训练 一 个 递 抹 网 络 的 通过 时 间 的 反 向 传播 (BPTT) 站 法 是 标准 反 向 传播 算法 的 扩 
展 ” 。 它 可 以 通过 将 网 络 的 时 序 操作 展开 成 一 个 分 层 的 前 馈 网 络 导出 ， 它 的 拓扑 结构 在 每 个 
时 间 步 增加 一 层 。 加 
其 体 地 ， 让 W 胡 示 需 要 学 习 时 序 任务 的 递归 网 络 ， 从 时 间 m 开始 一 直到 时 间 mr。w ” 表 
示 对 递归 网 络 NA 的 时 序 操 作 进行 展开 所 得 的 前 馈 网 络 。 展 开 后 的 网 络 和 初始 网 络 W 的 关系 
如 下 : 
1. 对 区 间 (mym] 内 的 等 一 个 时 间 步 ， 网 络 W" 有 一 个 包含 天 个 神经 元 的 层 ， 天 是 包含 在 
网 络 W 中 的 神经 元 的 数量 。 
2. 在 网 络 W 的 每 一 层 有 网 络 W 的 每 一 个 神经 元 的 拷贝 
3, 对 每 一 个 时 间 步 1E [no,n]， 从 网 络 W 中 了 层 的 神经 元 i 到 ?7 +1 层 的 神经 元 /的 突 
触 连 接 ， 是 诗 网 络 W 中 从 神经 元 i 到 神经 元 7 的 突 触 连接 的 拷贝 。 
这 些 要 点 在 下 面 的 例子 中 解释 。 
例 15.4 考虑 图 15- 10a 所 示 的 师 个 神经 元 递归 网 络 Y。 为 简化 表示 ， 省 略 单位 症 迟 操作 
符 z-:。 这 个 操作 符 应 该 插入 到 图 15- 10a 所 示 突 甬 连 接 (包括 白 连 接 环 ) 的 每 一 步 。 通 过 一 步 
一 步 地 展开 网 络 的 时 序 操作 ， 得 到 图 15- 10b 的 信号 流 图 ， 其 中 起 始 时 间 m= 0。 图 15-10b 代 
































表 分 层 的 前 馈 网 络 Y ”， 其 中 在 每 一 步 时 序 操作 都 有 新 的 层 加 入 。 国 
U 
-和 ww -一 一 一 
可 
了 妈 | 入 :二 2 的 也 
罗 (0) 加 本 下 三 7 3 光 + 了 752 
可 这 
| Ra1 
最 > 0 一 > me+D 
0” 0 
时 间 0 1 2 于 n+1 
bb 
图 15-10 


a 两 个 神经 元 递 遇 网 络 w 的 结构 图 b) 网 络 Y 依 时 间 展 开 的 信和 号 沛 图 
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依 天 于 使 用 分 回合 训练 或 使 用 连续 (实时 ) 训 练 ， 展 开 过 程 的 尼 用 导致 通过 时 间 的 反 向 传 
播 两 个 根本 不 同 的 实现 。 下 面 依次 描述 这 两 种 递归 学 习 方 法 。 
分 回合 的 通过 时 间 的 反 向 传播 

将 用 于 递归 网 络 训练 的 数据 集 分 割 为 独立 的 回合 ， 每 一 回合 袁 示 一 个 感 兴趣 的 时 序 模 
式 。 令 m 表示 一个 回合 的 开始 时 间 ，m 表示 其 结束 时 间 。 在 这 个 回合 里 ， 可 以 定义 代价 函 
数 


























amsm) = 二 忆 忆 em) (15.38) 


mAE 吕 

其 中 %% 为 网 络 中 指定 期 望 响应 的 那些 神经 元 标号 /的 集合 ，e(a) 是 该 神经 元 关于 期 望 响 应 

和 计算 出 的 实际 输出 之 间 的 误差 信 导 。 我 们 希望 计算 网 络 的 敏感 度 ， 即 计算 代价 函数 对 网 络 

罕 触 权 值 的 偏 导数 。 为 此 ， 可 以 用 通过 时 间 的 反 向 传播 back-prmopagation-through-time,BPTT ) 

算法 ， 这 个 算法 建立 在 第 4 章 讨论 的 标准 反 向 传播 学 习 集中 方式 的 基础 上 。 分 回合 的 BPTT 

算法 进行 如 下 (有 lliams and Peng,1990) ， 

“首先 ， 对 时 间 区 疝 (nu, mi ) 执 行 单纯 的 数据 前 向 传播 通过 网 络 。 保 厅 完 整 的 输入 数据 
记录 、 网 络 状 态 ( 即 网 络 的 窒 触 权 值 ) 以 及 期 望 响应 。 

* 对 过 到 这 条 记录 执行 一 个 单纯 的 反 向 传播 通过 网 络 ， 计 算 局 部 梯度 
Eua(mo,mai) 














(= 一 3 (15.39) 
的 值 ， 对 于 所 有 的 jE 弄 ，mo< 到 四。 这 个 计算 用 公式 
他 ( 世 ( 吕 ))erfm) 对 于 吧 = mr 





8 = 1g(we)[eto+ 王 wparD] 对 于 mc<n<m (5.40) 
RE 出 


进行 ， 其 中 Y () 是 激活 函数 对 它 的 自 变 量 的 导数 ，zw(=) 荐 神经 元 的 诱导 局 部 域 。 这 里 假 
设 网 络 的 所 有 神经 元 有 同样 的 激活 函数 8(')。 重 复 使 用 式 (15.40)， 从 时 刻 mm 出发， 向 后 
一 步 一 步 进行 直到 时 刻 m; 此 处 涉及 的 步 数 与 包含 在 这 个 回 含 内 的 步 数 相同 。 

*。 一 旦 执行 反 向 传播 的 计算 回 到 re + 1 时 ， 对 神经 元 了 的 突 触 权 值 必 调 整 如 下 
































Am oo (aaa(n 9) 45.4D 


日 岂 
5 人 

其 中 1 是 学 习 率 参数 ，x*,(n - 1) 是 在 时 刻 ”- 1 时 作用 于 神经 元 j 的 第 : 个 突 触 的 输入 。 

比较 刚才 描述 的 分 回合 的 BPTT 的 过 程 和 标准 反 向 传播 学 习 的 集中 方式 ， 可 以 看 出 它们 
根本 的 差别 是 前 者 在 网 络 的 许多 层 里 指定 对 神经 元 的 期 望 响应 ， 因 为 实际 输出 层 在 网 络 的 时 
序 行 为 展开 时 被 重复 很 多 次 。 
截断 的 通过 时 间 的 反 向 传播 

为 了 使 用 通过 时 间 的 反 向 传播 的 实时 形式 ， 我 们 用 误差 平方 和 的 瞬时 值 ， 即 

go = 到 呈 oo(n) 
下 









































形态 钉 动 失 渤 为 克 笋 3553 





作为 需要 最 小 化 的 代价 函数 。 如 同 标准 反 癌 传播 学 习 的 申 行 (随机 ) 模 式 一 样 ， 我 们 使 用 代价 
函数 &(a) 的 负 樟 度 去 计算 对 于 每 个 时 刻 m 的 网 络 的 窒 触 权 值 的 适当 调整 量 。 当 网 络 运行 时 ， 
调整 建立 在 连续 的 基础 上 。 但 是 为 了 采用 计算 可 行 的 方式 ， 我 们 只 在 一 个 固定 数目 的 时 间 步 
内 储存 相关 的 输入 数据 和 网 络 状态 的 历史 记录 ,该 时 间 步 数目 称 为 戴 断 深度 (tuncation 
depth)。 此 后 截断 这 度 用 六 表示 。 任 何 比 天 时间 步 早 的 信息 是 无 关 的 ， 因 此 可 以 省 略 。 如 果 
不 截断 计算 ， 由 此 容许 回 到 开始 时 间 ， 计 算 时 间 和 储存 要 求 当 网 络 运行 时 会 随时 间 线 性 增 
长 ， 最 终 达 到 某 点 使 得 整个 学 习 过 程 成 为 不 可 行 的 。 
算法 的 第 二 种 形式 称 为 埠 断 的 通过 时 间 的 反 向 传播 (tnuneated back-propagation-through- 
time,BPTT(b) ) 算 法 (Wiliams and Peng,1990)。 神 经 元 7 的 局 部 梯度 定义 为 
3 轨 ( 盐 























8 = 一 了 了 对 巴 了 扣 员 日 站 一 下 < 了 过 区 (15.42) 
由 此 导出 公式 
多 (we 对 于 = nm 
30 = 多 (人 () > op 人 (32(E+D) 对 于 呈 - 关 < < 415.43) 
4E 旭 


一 旦 执行 反 向 传播 的 计算 到 达 时 刻 =- + 1 时 ， 对 神经 元 7 的 突 触 权 值 由 进行 如 下 调整 
Am (ma) = 站 习 a(Da4-D (15.44》 


中 ?和 zx( 一 1) 如 前 定义 。 注 意 式 (15. 4 中 (0D 的 使 需要 保留 权 值 的 历史 记录 。 只 
有 当 学 习 率 参数 〗 小 到 足以 确保 权 值 从 一 个 时 间 步 到 十 一 时 间 步 不 会 有 很 大 改变 的 时 候 ， 在 
等 式 中 使 用 zw 才 是 合理 的 。 
比较 式 (15.43) 和 (15.40?， 可 以 看 出 与 分 回合 的 BPTT 算法 不 同 ， 误 差 信号 只 有 在 当前 
时 间 = 才 会 进 人 计算 。 这 就 解释 为 什么 不 保存 过 去 期 望 响 应 记录 的 原因 。 实 际 上 ， 截 断 的 
通过 时 间 的 反 向 传播 算法 对 前 期 时 间 步 的 处 理 ， 和 随机 反 向 传播 算法 (在 第 4 章 讨论 ) 对 待 多 
层 感 知 器 中 的 隐藏 神经 元 的 计算 是 一 样 的 。 


一 些 实际 考虑 


在 BPTT 的 实际 应 用 中 ， 截 断 并 不 是 看 起 来 那样 是 完全 人 为 的 。 除 非 递 归 网 络 是 不 稳定 
的 ， 对 于 导数 98(?1)/avw (站 应 该 收敛， 这 是 因为 时 间 上 非常 靠 后 的 计算 对 应 于 更 高 的 反馈 能 
力 (粗略 地 等 于 sigmoid 斜率 乘 以 权 值 ) 进 行 的 。 在 任何 情况 下 ， 规 断 深度 应 该 大 到 足以 产 
生 接 近 实 际 值 的 导数 。 这 就 变 求 值 上 有 一 个 低 的 下 界 。 例 如 ， 把 动态 驱动 递归 网 络 用 于 引 
擎 慢 速 (idle-speed) 控 制 时 ， 疡 = 30 是 一 个 完成 学 习 任 务 的 相当 保守 的 选择 (Puskorius et 由 .， 
1996)。 

另 一 实际 问题 需要 讨论 。 本 节 讨 论 的 通过 时 间 的 反 向 传播 的 展开 过 程 提供 一 个 利用 相似 
层 随时 间 前 向 处 理 的 级 联 描绘 它 的 有 用 工具 ， 这 样 可 以 帮助 我 们 深入 理解 过 程 是 如 何 作用 
的 。 然 而 这 个 优点 也 是 产生 缺点 的 原因 。 在 由 很 少 神经 元 组 成 的 相对 简单 的 递归 网 络 中 过 程 
运行 良好 。 但 是 ， 当 展开 过 程 应 用 到 那些 实际 中 常 遇 到 的 更 一 般 的 结构 时 ， 基 本 公式 ,特别 
是 式 (15.43)， 就 变 得 繁 拙 。 在 这 种 情况 下 ， 更 好 的 方法 是 用 Werbos (1990) 描 述 的 更 一 般 的 
方法 ， 此 时 每 层 的 前 向 传播 每 一 个 麦 示 引 发 一 个 相应 的 反 向 传播 表示 的 集合 。 这 个 方法 的 优 
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554 用 好 并 
点 是 对 前 向 和 递归 (反馈 ) 连 接 的 相似 处 理 。 
为 摘 述 BPTT () 特殊 形式 的 机 再 ,， 令 严 ,表示 在 节 避 的 网 络 输出 对 * 的 有 序 导数 
《ordered derivative)。 为 了 导出 反 向 传播 方程 ， 以 相反 的 次 序 考 虑 前 向 传播 方程 。 从 每 个 方程 
根据 下 你 原理 推导 一 个 或 多 个 反 癌 传播 表达 藉 : 





Eee = (bc),then R - 强 F and 开 。 - 32R， (15.45)》 
例 15.5 为 了 让 有 序 导 数 的 概念 清晰 ， 考 虑 下 列 两 个 方 各 的 非 线性 系统 : 
xl = logz + 地 


7 = 同 + 3 
变量 xz 在 两 个 方面 影响 输出 7: 直接 通过 第 二 个 方程， 和 间接 通过 第 一 个 方程 。y 对 六 的 
有 序 导 数 由 包括 和 对 y 的 直接 和 间接 的 作用 效果 的 总 因果 影响 所 定义 ， 可 表示 如下: 


他 
F = 玉 + 3 (2x1)(3 妇 ) =- 3 46o 妇 


-5 + 5 3 


在 编写 程序 时 ， 对 BPTT() 的 有 序 导 数 ， 式 (15.45) 的 右 便 的 每 一 个 有 序 导 妆 估 视 如 到 雪人 
的 水 的 估 上 。 在 这 种 方法 中 ， 适 当 的 导数 从 网 络 中 的 一 个 给 定 的 节点 分 配 到 了 所 有 的 以 前 
向 方式 前 馈 该 他 点 的 网 络 其 他 节点 和 突 触 权 值 ， 并 且 对 于 每 一 连接 中 可 能 出 现 的 延迟 做 出 适 
当 补 偿 。 这 里 描述 的 表达 式 的 简洁 减少 了 对 诸如 时 间 展 开 或 信号 流 图 的 可 视 化 的 需要 。 在 
Feldkamp and Puskorius(1998) 以 及 Puskorius et al.(1996) 中 ， 利 用 这 个 过 程 产 生 了 实现 BPTT 算 
法 的 伪 代码 。 


全 .8 实时 递归 学 习 


本 节 我 们 描述 另 一 种 称 为 实时 递归 学 习 (real-time reeurent leaming，RTRL)II 的 学 习 算 
法 。 算 法 的 名 称 来 自 于 下 面 的 事实 ， 完 全 连接 网 络 的 突 触 权 值 调 整 是 实时 的 ， 也 就 是 说 ， 
基 在 网 络 继续 执行 它 的 信号 处 理 功 能 的 时 候 (Williams and Zipser,1989)。 图 15-11 显示 这 样 
一 个 递归 网 络 结构 布局 。 它 由 4 个 神经 元 和 mm 个 外 部 输入 组 成 。 网 络 有 了 两 个 不 同 的 层 : 
并 蛙 的 输入 - 反馈 层 和 计算 节点 的 处 理 层 。 相 应 的 ， 网 络 奕 触 连 接 也 是 由 前 局 和 反馈 连 
接 构成 。 

网 络 状 态 空 间 的 描述 由 方程 (15.10? 和 (15.11) 定 义 。 过 程 方程 (15.10) 重 写成 以 下 扩展 形 
式 : 





























o(wrE(n)) 
xn+D = | oCws(n)) (15.46) 


SCn)) 
其 中 假设 所 有 的 神经 元 有 相同 的 激活 函数 @(')。(g+ 严 +1) x1 向 量 wi 是 递归 网 络 的 神经 
元 / 的 突 触 权 值 向 量 ， 即 


Wi 四 
下 [7 (15.47) 
6 
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图 15-11 用 于 描述 RIRL 算 法 的 完全 连接 递归 网 络 


其 中 wy 和 ,分别 是 转 置 矩 阵 W: 利 W; 的 第 列 。(9 + 严 + 1) xj 向 量 8m) 定 义 为 


XCP) 
Sa) 


其 中 x(n) 是 9 xl 状态 向 量 、 un(n) 是 (m + 1) x1 输 和 向量 。utn) 的 第 一 个 元 素 是 + 1， 对 应 
的 wsv 的 第 一 个 元 素 等 于 应 用 于 神经 元 ) 的 偏 置 六 。 
为 表达 简单 起 见 、 引 人 新 的 算 阵 Ai(n)，U(e) 和 田 (z)， 分 别 描述 如 下 : 
1.&)(m) 是 状态 向 量 xn) 关于 权 值 w 的 偏 导数 所 构成 的 9 x (9 + mm+ 1 矩阵 ; 


A(n) = 强 2， -12 (15.49) 


2.U(n) 是 9x(g+m+I) 矩 阵 ， 除 了 第 六 行 等 于 向 量 &m) 外 ， 其 他 行 都 为 0: 





(15.48) 1 58] 





























0 
U(n) = [| = 1.2，……p9 《15.50) 
0 


3.@(n) 是 9x9 的 对 角 矩 阵 ， 它 的 第 下 个 对 角 元 素 是 激活 函数 对 其 自 变量 的 偏 导 数 , 
在 WECn) 处 计算 : 
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DPIn) = diag((wTSCna)7 wa)) (wy Sa))) (15.51) 
有 了 这 些 定义 ， 就 可 以 对 式 (15.46) 关 于 mw 求 导 。 用 微 积 分 的 链 式 法 则 ， 得 到 下 列 递 归公 
式 : 
Ana+tD =B@nTWCaA(n +U(C 人 ， = 1.2…m8 (15.52) 
这 个 递归 公式 描述 实时 递归 学 习 过 程 的 非 线 性 状态 动力 学 ( 即 状 态 演 化 ) 。 
为 了 完成 撒 述 这 个 学 习 过 程 ， 我 们 需要 将 符 阵 4A, ( mn) 和 误差 蔓 面 对 w, 的 梯度 相 联系 
为 此 ,首先 用 度量 方程 (15.11) 定 义 pxI 误 莽 向 量 : 


en) = dtn) -yn) = dtn) -CCx(n) (15.53) 
根据 e(n) 定 义 的 平方 误差 瞬间 和 为 
8(n) = 二 er(n)e(m) (15.54) 
学 习 过 程 的 日 标 蚌 极 小 化 由 对 所 有 时 间 m 的 (n) 末 和 所 得 到 的 代价 函数 ， 即 
有 = 芝 () 


为 完成 这 个 目标 ， 的 用 和 对 了 了 方 流 这 就 需要 梯度 短 阵 的 知识 ， 可 写 为 
人 = 也 2 人 = 忆 Y em) 
其 中 V。e(m) 是 g(n) 对 权 值 只 阵 W = 四 如 果 需 要 ， 可 以 继续 使 用 这 个 方程 并 旦 
得 到 递归 网 络 的 突 触 权 值 的 更 新 方程 ， 并 且 不 用 近似 。 但 是 ， 为 了 得 到 -一 个 实时 的 训练 递归 
网 络 使 用 的 学 习 算法 ， 必 须 使 用 一 个 梯度 的 瞬时 估计 值 ， 即 Y ve&(a)， 这 就 导致 对 最 胰 下 降 
方法 的 近似 。 
回 到 式 (15.54)， 以 它 作为 最 小 化 的 代价 函数 ， 求 它 对 权 值 向 量 w 的 微分 ， 得 到 
(nm) - [ 综 ?)。 CD -vd cf 于 


9w 9w， 








je = -CCaetm 2 


《15.55) 
因此 应 用 于 神经 元 7 的 突 触 权 值 向 量 w (= ) 的 调整 由 
Aw(m -1 全 -MCA(oe(m yy 12 (15.56) 
决定 ， 其 中 ?是 学 习 率 参 数 ，A, (n) 由 式 (15.52) 决 定 。 
现在 仅 剩 下 确定 开始 学 习 过 程 的 初始 条 件 。 为 此 令 
Ai(0) = 0 对 所 有 1 (15.57) 
这 意味 者 递归 网 络 的 初始 状态 停留 在 .一 常态 。 
表 15-1 概括 实时 递归 学 习 算法 。 这 里 所 描述 的 算法 公式 可 应 用 到 任意 的 对 其 自 变量 
可 徽 的 激活 函数 w(')。 对 于 特殊 情况 ， 取 双 萌 线 切 线 方程 形式 的 sigmoid 非 线性 函数 ， 我 
们 有 








国 ( 有 +1) = ez(z)) = tanh(zfm)) 
且 下)= 玖 0 六 -sop(a(tn)=1- 史 (n+D) 415.58) 
其 中 Cn) 神经 元 j 的 诱导 局 部 域 ，x% (n+ 1) 是 它 在 m+T 时 刻 的 状态 。 
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表 151 实时 递归 学 习 算法 小 结 








i= 坟 经 元 了 的 突 触 权 值 癌 景 ，/ = 1，2，…，do 
初始 化 : 
1. 对 算 继 的 突 触 权 值 巾 子 从 一 个 均 印 分 布 中 移出 的 较 小 值 。 
2, 置 状 碍 向量 x(0) 的 初始 介 为 KKO) = 0 
3. 对 j=1, 2, …， 4， 冒名 (0) =0. 
计算 ; 对 nm=0，1，2，…， 计算 






(na+rl) = 古 (a)[WoCnAta)+Ufn)] 
em) = Ba -~ Cxfa) 
Am (ae) = WCA(nJem 
M 和 有， 和 Ca)，U(n) 利 亚 (n) 的 定义 分 别 由 式 (1S.46) ，015.49)，(15. 和 0) 和 (15.51) 给 出 。 








使 用 瞬时 梯度 V .&(m) 意 味 着 实时 递归 学 习 算法 偏离 建立 在 真正 梯度 V ,基础 上 的 非 
实时 算法 。 但 是 ， 该 偏离 和 在 第 4 章 里 用 的 训练 多 层 感知 器 的 反 向 传播 算法 很 相 做 。 虽 然 实 
时 递归 算法 不 保证 和 总 的 误差 画 数 色 ua(W) 对 仅 值 和 矩阵 克 的 负 梯度 精确 一 致 ， 但 实时 和 非 实 
时 的 实际 差别 很 小 ; 在 算法 速率 参数 1 诚 少 时 它们 近似 相等 。 与 真正 梯度 伪 离 的 行为 所 导致 
的 溢 在 的 最 严重 的 结果 ， 是 观察 的 轨道 (由 绘制 8(n ) 对 权 值 徐 阵 W(n ) 的 元 素 的 图 形 获得 ) 5g] 
可 能 取 雇 于 算法 产生 的 权 值 改 变 ， 这 也 可 看 作 另 一 个 反馈 源 并 从 而 导致 系统 不 稳定 人 性。 让 参 
数 ?小 到 让 权 值 变化 的 时 间 尺 度 远 小 于 网 络 的 运行 的 时 间 尺 度 ， 可 以 避免 这 个 效果 。 
例 15.6 针对 图 153-6 有 两 个 输入 和 一 个 输出 的 完全 递归 网 络 ， 本 例 我 们 提出 RTRL 算 
法 的 公式 。 网 络 有 三 个 神经 元 ， 由 例 15.1 的 矩阵 更 。，W, 和 C 构成 。 
由 于 到 =2，4=3， 从 式 (15.48) 可 得 









































XI ) 
af) 
X3() 
工 
2 
aa) 


证 %a(a) 表 示 撼 阵 久 Cn) 的 第 如 个 元 素 。 利 用 式 (15.52) 和 (15.56) 分 别 得 到 


中 m) = 


an+1lD =e(o(n[> aaau(n)y+ase(Cn)] 
Atoa(a) = 如 国 (n)) -xn)DNu(m) 
其 中 扩 是 Koneeker dela， 即 不 = 了 时 为 1， 其 他 情况 下 为 0; (7，) = 1 2,，3 和 1 =1， 
2，…,6。 图 15-12 表示 -一 个 决定 权 值 调 整 Atou (= ) 演 化 的 教 感度 图 。 注 意 网。 = | 妇 |，(，[ 吕 
门 =1, 2, 3 和 Wu =|ml 7=1 2，3，1=4，S，6- 图 
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递归 网 

















络 训练 中 经 党 月 


15-12 图 15-6 的 全 连接 递归 网 络 敏 感度 图 
注意 : 标号 为 外 (mn) 的 三 个 节点 都 石 作 单 输入 


到 的 策略 是 教师 强制 (teacher forcing)( Wiliams and Zipser, 1989， 


1995); 在 自 适 应 性 滤波 中 ,教师 强 制 称 为 方程 - 误差 (equation-emor) 方 法 (Mendel,1995]。 基 


本 上 教师 强制 涉及 在 网 络 的 训练 过 程 中 每 当期 望 响应 可 用 时 ， 在 随后 网 络 动态 行为 的 计算 中 





利用 期 望 响应 ( 即 目标 信号 ) 蔡 代 实 际 神经 元 的 输出 。 虽 然 教师 强制 是 在 RTRL 算法 下 描述 











的 ， 它 的 用 法 本 
它 的 输出 反馈 回 











网 络 。 


教师 强制 的 良好 效果 包括 (Williams and Zipser,1995 ); 


*。 教师 强制 可 以 使 网 络 训 
那些 使 用 教师 强制 的 


经 元 的 任务 的 早期 部 分 。 


练 更 快 。 原 因 在 于 使 用 教师 强制 等 于 假设 网 络 口 经 知道 属 了 


以 应 用 到 另外 的 算法 。 但 是 ， 为 了 让 它 是 可 应 用 的 ， 问 题 中 的 神经 元 必须 将 


计 





*， 教师 强制 可 以 作为 训练 期 的 校正 机 制 。 例 如 ， 网 络 的 突 触 权 值 可 能 有 正确 的 值 ， 但 





是 由 于 某 种 原因 网 络 瑟 
触 权 值 是 错误 的 策略 。 





基于 梯度 的 学 习 算 法 使 用 教师 强制 实际 上 是 优化 与 不 用 








强制 算法 和 无 强制 算法 产生 不 
15.9 Kaiman 滤波 器 


能 运行 在 状态 空间 的 错误 区 域 。 显 然 在 这 种 情况 下 ， 调 整 突 














教师 强制 不 同 的 代价 函数 。 教 师 


同 的 解 ， 除 非 有 关 的 误差 依 号 为 0， 这 时 勿 需 学 习 。 





正如 前 面 提 及 的 一 样 ， 基 于 梯度 下 降 的 连续 学 习 ， 例 如 实时 递归 学 习 算法 ， 由 于 依赖 梯 
度 的 瞬时 估计 ， 一 般 是 很 盆 的 。 将 递归 网 络 的 监督 训练 看 做 是 最 优 滤波 问题 ， 可 以 克服 这 个 





严重 的 局 腿 ， 它 的 方法 是 以 回 湖 到 学 习 过 程 的 第 一 次 选 代 的 方式 递归 利 














二 





包含 在 训练 数据 











的 信息 。 这 里 描述 的 思想 就 是 Kalman 滤波 的 实质 (Kalman,1960)。Kalman 滤波 器 新 颖 的 特点 


有 : 





动 悉 狠 盈 只 直 为 网 妇 5359 





。 理论 是 根据 状态 空间 的 概念 提出 的 ， 可 以 有 效 利 用 包含 在 输入 数据 中 的 信息 。 

， 递归 计算 状态 的 估计 ;， 即 每 个 更 新 的 状态 估计 是 依靠 以 前 的 估计 和 当前 可 用 数据 计 

算出 的 ， 因 此 只 有 以 前 的 估计 需要 储存 。 - 

这 一 节 我 们 给 出 Kalman 滤波 器 理论 "" 的 简要 回顾 ， 便 于 下 一 季 讨 论 解 夺 扩 展 Kalman 滤 
波 器 。 理 论 的 发 展 常常 开始 于 线性 动态 系统 。 为 了 w+D ZI wm CO dm) 
扩展 到 非 线性 动态 系统 ， 将 一 个 线性 化 的 形式 应 用 
于 系统 ， 后 一 部 分 的 讨论 推迟 到 下 一 节 。 

考虑 图 15$-13 的 线性 离散 时 间 动 态 系统 的 信和 号 
流 图 。 这 里 给 出 的 系统 的 时 间 域 描述 和 15.3 节 给 出 图 15-13 用 于 描述 Kaluan 滤波 器 的 线性 























wa 


的 状态 空间 形式 相似 。 图 15- 13 的 数学 表达 式 为 如 离散 时 间 动 态 系统 信号 流 图 
下 方程 : 
w+l) = Wo) 《15.59) 
dtn) = Ca)wCn) +wnm) 《15.60) 
过 程 方 程 (process equation)({15.59) 利 度量 方程 ( measurement equation)(15.60) 的 各 个 量 如 下 : 
” w(m) 是 系统 的 状态 向 量 
， d(5) 是 观察 向 量 
"。 C(nm) 是 度量 矩阵 
， VCm) 是 度量 噪声 





在 过 程 方程 (15.59) 中 作 了 两 个 简化 的 假设 。 首 先 ， 过 程 方 穆 是 无 嗓 声 的 。 其 次 ， 系 统 在 时 
刻 z+1 和 的 状态 之 间 的 转换 矩阵 等 于 单位 矩阵 。 在 图 15- 13 我 们 使 用 了 状态 的 -个 新 符 
号 ， 其 原因 在 下 一 节 会 十 分 明显 。 

KalIman 滤波 问题 可 陈述 如 下 : 

利用 由 向 量 集 1d( 六 沁 组 成 的 所 有 观测 数据 ， 对 于 每 一 个 半 泣 1 寻找 状态 w( 让 的 最 小 均 
差 平 方 估计 。 
注意 状态 向 量 的 信息 是 不 可 用 的 。 如 果 ;= an， 该 问题 你 为 海 法 ， 如 果 守 > m， 被 称 为 预测 ， 
如 果 1 < is nm 称 为 平滑 。 问 题解 的 导出 建立 在 下 列 假 设 的 基础 上 (除了 对 系统 线性 性 的 假 
设 ): 














L. 度量 噪声 wm 是 均值 为 0 的 白 噪声 ， 其 协 方差 第 阵 定义 为 
7 R(z)， = 大 
号 [vCm)v7( 天 )] = 0 (15.61) 

2. 对 所 有 =3>0， 状 态 初始 值 w(0) 与 Km) 不 相关 。 

为 了 得 到 Kalman 滤波 器 的 巧妙 推导 ， 我 们 将 使 用 新 息 的 概念 (Kailath, 1968 )。 特 别 地 ， 
与 观测 向 量 d(z) 有 关 的 新 息 过程 (innovations process) 定 义 为 

etn) = dtn) -anln-1) 115.62) 

其 中 (aln -1 是 芭 m) 的 最 小 均 方 误差 估计 ， 给 出 观测 向 量 从 时 间 * = ! 开始 并 且 扩 展 至 时 
闻 = 一 工 的 所 有 过 去 值 。 对 于 “最 小 均 方 误差 估计 "我 们 是 指 最 小 化 对 于 d(n ) 测 得 的 均 方 误差 
的 特定 估计 。 新 息 过 程 nx( n) 可 看 做 是 包含 在 am) 但 不 在 i(nin - 1) 的 预测 部 分 的 新 信息 的 
测量 。 新 息 过 程 x( nn) 有 如 下 的 优点 ( Kailath, 1968) : 

















向 


到 
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1. 与 此 m) 有 关 的 新 息 过 程 cfm) 与 过 去 的 所 有 的 观测 值 d1),d(2)，…d(m -1 无关， 邯 
严 [e(n)d 《RE)] = 0 对 于 1 过 直入 员 一 1 
2. 新 息 过 程 由 - -系列 互相 无 关 的 随机 向 量 构成 ， 即 
忆 [e(pJoer(i1=0 对 于 1 芝 下 二 站 -1 
3. 代表 观测 数据 的 随机 向 量 序列 和 代表 新 息 过 程 的 随机 向 量 序列 一 一 对 应 ， 邵 
ad02) dnsiall) oa2) (nm) (15.63) 
现在 不 月 损 失 任何 信息 我 们 就 可 以 用 不 相关 的 新 息 序列 代 亚 相关 的 观 浏 数据 序列 。 给 定 新 息 
集 ia(8) 有 -表示 在 时 间 上 的 状态 估计 。 由 此 Kalman 滤波 将 推导 变 得 简单 了 ,在 此 基础 上 进 
行 分 析 ， 我 们 可 以 导出 标准 Kalman 滤波 器 ， 如 表 15-2 中 的 小 结 。 


束 15-2 Kalman 滤波 器 小 结 





对 nm=41 2， 3，…， 计算 
KKeJ= [CCmJRCn nm -DC7Cn) + 玉 Cna 
G(m = K(nsn- 1)CrCna)r(a 
am)= ya -CUn) 友 (nim- 卫 
9 (fa+r1lm)= 宙 he-1D+C(aafn 
K(n+ta)=ERnn-D-GnCnKna 1》 


这 里 有 三 个 新 的 量 需要 定义 ; 
*。 K(n，5 一 1) 旦 误差 协 方差 短 阵 ， 定 义 为 





K(n,z -1)= 瑟 [sg(nz-l)srna -1I)] (15.64) 

其 中 状态 误差 gtn，n - 1) 定 义 如 下 
Srnmn-l)= wpn) 一 合 (min -tb (15.65) 
其 中 wta) 是 实际 状态 ， 多 (alm - 1) 是 建立 在 直到 时 间 = - 1 为 止 的 过 去 观测 数据 基 

础 上 的 单 步 预 测 值 。 
。 TCm) 是 关于 滤波 估计 误差 ea) 和 新 息 we(n) 关 联 的 转换 因子 (conversion factor)， 即 

etn) = RCnTCn)a(n) (15.66) 
其 中 ea) =dn)-@nln) (15.67) 





6(z1a) 是 在 直到 时 间 ”为 止 的 观测 数据 下 的 观测 向 量 am) 的 估计 。 
"， G(n) 是 Kalman 增益 (gain) ， 用 于 决定 更 新 状态 估计 的 校正 量 。 
表 15-2 小 结 的 Kalman 小 波 器 类 型 被 设计 用 于 传播 误差 的 协 方差 矩阵 K(n ,nm - 1)。 因 此 
这 个 算法 称 为 协 方差 Kalman 滤波 算法 (covariance Kalman filtering algorithm) 。 


平方 根 Kalman 省 波 器 


协 方 益 Kalman 滤波 器 会 有 严重 的 数值 困难 。 特 别 当 更新 矩阵 改 (a + 1,m) 是 由 Riceati 方 
程 决定 时 ， 它 在 玫 15-2 的 最 后 一 行 定义 。Ricca 方程 的 右边 是 两 个 矩阵 量 的 差 。 除 非 在 算 
法 的 每 - 次 迭代 中 使 用 的 数值 精确 度 都 足够 高 ， 否 则 从 这 个 计算 所 得 到 的 更 新 矩阵 KCn + 
1 ,2) 可 能 不 为 非 负 定 的 。 很 明显 这 样 的 解 是 不 可 接受 的 ， 因 为 下 (m + 1,m) 代 表 协 方 差 矩 阵 ， 
宙 定 义 它 是 非 负 定 的 。 由 于 使 用 有 限 字 长 算术 而 产生 的 数值 不 准确 性 ， 进 而 导致 Kalman 滤 
波 器 的 非 稳定 行为 称 为 发 散 现象 (divergence phenomenon)。 
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这 个 问题 可 以 通过 传播 误 差 协 方差 矩阵 的 平方 根 K (aa 一 1) 而 不 是 区 Cn ,ma - 1 自身 
来 解决 。 具 体 地 ， 使 用 Cholesky 因 式 分 解 ， 我 们 将 改 (nn - 1 表示 为 (Coiub and yan Loan， 
1996 ) : 
Ka -1)=K2Ooa-IDK2(n aa 一 ID) (15.68) 
这 里 必 "(nn -1 是 一 个 下 三 角 玫 阵 ，Km (nn - 1 是 它 的 转 半 。 在 线性 代数 中 ，Cholesky 
子 必 “ (aa 1) 通常 指 的 是 必 (a ,nm - 1) 的 平方 根 。 因 此 建立 在 Cholesky 因 式 分 解 基础 上 
的 Kalman 滤波 器 被 称 为 平方 根 Kalman 滤波 器 。 重 要 的 一 点 十， 矩阵 的 丧 积 R2(nn 1) 
玉 ”(a,m- 1) 为 不 确定 的 可 能 性 大 大 减少 ， 因 为 任何 方 阵 和 它 转 喷 矩 阵 的 乘积 总 是 正定 的 。 


15.10 解 耦 扩展 的 Kalman 滤波 器 


我 们 对 Kalman 滤波 器 的 主要 兴趣 在 于 利用 它 的 独 有 特 件 来 执行 递归 网 络 的 监督 训练 巴 ， 
出 于 递归 网 络 结构 的 复 休 性 (例如 递归 多 层 感知 器 )， 问 题 关键 在 于 如 何在 不 规 害 Kalman 泪 























省 器 理论 应 用 的 问 时 又 让 该 方法 计算 上 可 行 。 找 到 的 答案 是 使 用 - .个 扩展 Kalman 滤波 器 的 式 


解 精 形 式 ， 其 计算 的 复杂 性 适应 于 可 利用 的 计算 资源 和 和 特定 的 应 用 (Puskorius and 
Feldkamp,1991) 。 
考虑 建立 在 具有 多 个 突 触 权 值 和 p 个 输出 节点 的 静 仿 多 层 感 知 器 基础 上 的 递归 网 络 。 
令 向 量 w(m) 表 示 在 时 间 n” 时 整个 网 络 的 突 触 权 值 。 根 据 自 适 应 滤波 器 的 思想 ， 网 络 的 状态 
空间 方程 可 以 建 模 如 下 (Singhal and Wu,1989;Haykin,1996 ): 
w(P+1l) = W(m) (15.69) 
d Cn) = ce(w(n) ,aln)y,v(n))+YyCn) (15.70) 
这 里 权 值 向量 w(n) 起 到 状态 的 作用 。 属 于 向 量 值 函数 c( ',，，') 的 第 二 个 向 量 参数 uCa) 和 
第 三 个 向 量 参数 Y(m) 分 别 表示 输入 向 量 和 回 妇 节点 激活 的 向 量 。 实 际 上 式 (15.69) 指 出 模型 
停留 于 最 住 状 态 ， 转 换 矩 阵 在 时 间 = 将 w(m) 转 换 为 在 时 间 n+ 1 的 w(n+1)， 它 是 单位 矩 
阵 。 最 侍 条 件 是 指 递归 网 络 误差 曙 面 的 局 部 或 全 局 最 小 。 模 型 非 线性 的 惟一 来 源 是 度量 方程 
《15.70)。 向 量 d, 表示 模型 的 期 望 响应 。 由 于 式 (15.70) 表 示 模 型 的 输入 - 输出 方 往 ， 可 知 
e(……，…) 表 示 多 层 感知 器 的 输入 层 到 输出 层 的 整个 非 线性 性 ， 式 (15.70) 的 噪声 度量 向 量 
ya) 假设 是 一 个 0 均值 和 对 角 协 方差 矩阵 R(= ) 的 多 元 白 噪 声 过 程 。 
在 应 用 扩展 的 Kalman 滤波 器 到 递归 网 络 时 ， 必 须 注意 “状态 是 在 两 种 不 同 的 环境 下 使 
用 的 术语 : 
。 系统 演化 通过 自 适 应 性 滤波 ， 这 显示 在 训练 中 对 递归 网 络 权 值 的 改变 ; 向 量 w(z) 表 
示 这 第 一 种 状态 概念 。 
。 甫 归 网 络 自身 的 运行 ， 例 如 画 数 c 所 依赖 的 回归 节点 激活 :各 电 v(Ca) 表 示 这 第 二 种 
通过 比较 式 (15.69) 和 (15.70) 描 述 的 模型 与 式 (15.59) 和 (15.60) 的 线性 动态 模型 ， 可 以 
看 到 这 两 个 模型 的 惟一 差别 在 于 度量 方程 的 非 线性 的 形式 。 为 了 应 用 Kalman 滤波 器 理论 到 
刚 描 述 的 状态 空间 模型 ， 我 们 必须 首先 线性 化 式 (15.79) ， 并 改写 为 
dtn) = CCn)mw(n) + wmn) (15.71) 
的 形式 ， 其 中 Cn) 是 线性 模型 Px 四 的 度量 矩阵 ， 用 dm) 区 别 于 式 (15.70) 的 duCn)。 线 
性 化 包括 整个 网 络 的 p 个 输出 对 模型 下 个 权 值 的 偏 徽 分 ， 表 示 为 
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3cL cr 2e 
ao to ao 
cz cz cz 
Cn) = | 5 和 5 《15.72) 
2 ce 32 
5 ao; or 


其 中 心 【=1，2，…， 户 表示 非 线 性 函数 e(w(m)，a(n)，v(n)) 的 第 ; 个 元 素 。 式 (15.72) 
的 偏 微分 在 w(a) = 会 (n) 处 计 值 ， 其 中 WCm) 是 在 时 刻 ” 梳 值 向 量 wgn) 的 估 值 ， 它 由 扩展 
的 Kaiman 滤波 器 在 给 出 直到 时 刻 m - 工 的 观察 数据 基础 上 计算 出 来 (Haykin, 1996 )。 在 实现 
时 ， 这 些 偏 微分 是 由 通过 时 间 的 反 向 传播 算法 或 实时 递归 学 习 算 法 计算 出 来 的 。 实 际 上 ， 扩 
展 的 Kalman 滤波 器 算法 建立 在 15.7 节 或 15.8 节 中 提 到 的 这 丙种 算法 中 的 一 个 或 另 一 个 的 基 
础 上 。 这 意味 着 e 必须 是 一 个 关于 刚才 提 到 的 递归 节点 激活 的 函数 。 事 实 上 ， 对 于 单 层 递归 
网 络 ， 和 矩阵 C(n) 能 够 由 矩阵 人 , (= ) 的 元 素 组 成 ， 就 像 式 (15.52) 中 的 RTRL 算法 所 计算 的 一 
样 。 因 此 ， 度 量 矩 阵 C(n) 是 网 络 输 出 对 网 络 自 由 参数 的 动态 导数 惩 阵 。 正 像 在 时 间 步 (n+ 
1) 时 网 络 递归 节点 的 激活 是 一 个 对 前 面 的 时 间 步 ”得 到 的 相应 值 的 函数 一 样 ， 按 照相 似 的 
方法 ， 我 们 发 现在 时 间 步 (+ 1) 时 ， 递 归 节 点 激活 对 网 络 自由 参数 的 导数 就 像 在 RTRL 方程 
所 表示 的 那样 ， 为 前 面 的 时 间 步 ” 得 到 的 相应 值 的 晃 数 。 

假设 网 络 的 突 触 权 值 被 分 为 z 组 ， 例 如 ， 第 守 组 有 皮 个 神经 元 。 在 式 (15.72) 定 义 的 
x 钱 度 量 矩 阵 C 是 阅 络 输出 对 所 有 网 络 权 值 的 导数 敌阵 。 甜 阵 C(n ) 对 于 输入 向 量 um) 的 
依赖 关系 由 式 (15.72) 所 隐 仿 定义。 这样 定义 的 矩阵 C(n) 包 括 对 于 扩展 的 Kalman 滤波 器 的 
任何 解 看 形式 所 必需 的 导数 。 例 如 ， 如 果 使 用 全 局 扩展 Kalman 滤波 器 (日 obal extended Kalman 
fiter,GEKF )《 即 我 们 没有 解 炮 ) ，g = 1， 并 且 整 个 矩阵 C(n ) 由 式 (15.72) 所 定义 。 在 另 一 方 
面 ， 如 果 使 用 解 耦 扩展 Kalman 滤波 器 (decoupled extended Kalman filter,DEKF ) ， 那 么 “全 局 " 度 
量 垂 阵 Ca) 必须 调整 使 得 网 络 中 一 个 给 定 的 神经 元 的 权 值 被 分 在 一 个 组 ,在 C(n ) 内 部 作 
为 一 个 单独 块 ， 其 中 每 一 个 据 被 标记 为 上 = 1，2，…，&。 对 于 后 者 ， 抑 阵 CCn) 仅 仪 是 单个 
C, 的 并 置 ， 如 下 面 所 示 : 























Cn) = [Ca Cn CeCn)] 
不 管 解 耦 程度 如 何 ， 整 个 矩阵 C(n) 必 须 如 式 (15.72) 所 定义 的 那样 计算 。 
现在 开始 应 用 表 15-2 的 Kalman 滤波 器 算法 。 特 别 地 ， 对 于 式 (15.69) 和 (15.71) 的 线性 
化 动态 模型 ， 我 们 有 (Puskorius and Feldkamp,1991 ) : 




















Fa) = [六 COK(nn DG + ROD] 415.73) 
Gin) = Ki(nnm-lICOn)TCn) (15.74) 

ap) =dn) -Gateln-l) (15.75) 

多 (n+Eln) = 多 (an-l)+Ga)an) (15.76) 

下 (mm+ln)》= (nn -iD-GinCc(n)KCnn -1) (1S.77) 


其 中 1=1，2，…，g。 式 (15.73) 至 (15.77) 的 参数 向 量 和 信和 号 向 量 描述 如 下 : 
FTCn) =Pxp 抑 阵 ， 表 示 整 个 网 络 的 全 局 转换 因子 
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Gi(n) = 二 XB 所 阵 ， 衣 示 第 ;组 昼 经 元 的 Kalman 增益 
am) =pxL 疝 其， 表示 线性 化 系统 的 期 望 响应 dm) 和 它 的 估计 和 (ml1a - 1 的 差 值 
估计 全 zlm ~ JJ) 由 网 络 停留 在 状态 i 膏 ,(n1n -Ti 时 网 络 的 实际 输出 y(m) 表 示 ， 
实际 输出 y( =) 为 网 络 对 输入 u(m) 产 生 的 响应 
WiCnla-D = 多 xl 向量， 表示 在 给 定 直到 时 间 # -~ ! 为 止 的 观察 数据 情况 下 ， 对 于 第 
;组 的 权 值 矩 阵 w (mn) 的 估计 
KiCn,a-D= 太 x 开 天 阵 ， 表 示 第 ;组 神经 元 的 误差 协 方差 矩阵 
包括 在 (15.73) 的 全 局 转换 因子 T(a) 定 义 中 的 求 和 说 明 扩 展 的 kalnan 滤波 器 的 解 耦 本 质 。 
很 重要 的 - -点 ， 就 是 理解 在 DEKF 算法 里 解 三 实际 决定 全 局 误差 协 方差 算 阵 区 (nan ,na -1) 
中 哪些 特定 元 素 需 要 保持 和 更 新 。 实 际 上 ， 所 有 计算 的 节省 是 由 于 多 略 与 全 局 误差 协 方差 年 
阵 K(nz,n -1 的 那些 非 对 角 块 有 关 的 保持 和 现 新 。 
由 式 (15.73) 至 (15.77) 编 码 的 TEN 生 守 厂 4 小 化 代价 函数 


8(n) = 广 到 忆 1 ec 1 《15.78) 





这 里 ea 是 误 莹 向 量 ， 定 义 为 

eC7) = d 门 -GO 了 = 12 ,an 
Y( 记 是 网 络 使 用 直到 时 间 7 包括 时 间 访 的 所 有 可 用 信息 的 实际 输出 。 注 意 ，--- 般 情况 下 ， 
e( 门 关 a(7)。 


人 工 过 程 噪声 


式 (15.69) 至 (15.70) 的 非 线 尾 动态 系统 是 非 强 制 的 ， 即 过 程 方程 (15.69) 没 有 外 部 输 和 人 。 
这 个 缺陷 可 能 导致 严重 的 数值 困难 ， 因 此 在 有 限 精度 环境 运行 时 产生 Kalman 滤波 器 发 散 。 
如 15.9 节 解释 的 ， 发 散 现 象 可 以 用 平方 根 滤波 解决 。 

另 一 规避 发 散 现象 的 方法 是 使 用 启发 式 的 机 制 ， 涉 及 对 过 程 方程 人 为 添加 过 程 嗓 声 ， 表 
示 为 
































win+l) = we)+ol(n)， i = 12 人 (15.79) 
其 中 e:(m) 即 过 程 噪声 。 假 没 @, (m) 是 一 零 均 值 和 对 角 协 方差 矩阵 为 Q,( =) 的 多 变量 白 品 
声 。 人 为 添加 过 程 噪声 @, (mn) 实 际 上 是 与 度量 噪声 (mn) 和 网 络 初始 状态 独立 的 。 添 加 os(m) 
到 式 (15.79) 所 得 到 的 效果 是 修改 用 于 误差 协 方差 矩阵 更 新 的 Ficeati 方程 如 下 (Haykin， 
1996) : 

















Kmn+Ln) = Ka -1l) -Go)cCaREKCnn -1D+Q(n) (15.80) 
假设 Q.(m) 对 于 所 有 有 的; 都 足够 大 ， 于 是 政 ;(n +T,n) 对 于 所 有 的 n” 都 是 非 负 定 的 。 
除了 克服 数值 上 的 困难 ， 人 为 添加 过 程 噪声 @. (= ) 还 有 下 列 有 益 效 果 : 在 训练 过 程 中 ， 
算法 过 程 有 较 小 可 能 性 陷 人 局 部 最 小 。 这 就 导致 在 收敛 速度 和 解 的 质量 方面 使 训练 性 能 显著 
提高 。 


DEKF 算法 小 结 
表 15-3 表 朱 在 式 (15.73) 至 (15.76) 及 (15.80) 基 础 上 的 DEKF 算法 小 结 。 这 个 表 也 包括 























另 
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算法 的 初始 化 细节 。 

现在 可 以 对 扩展 的 Kalman 滤波 器 作 最 终 评价 如 下 。 表 15-3 小 结 的 DEKF 算法 指 的 是 所 
有 可 能 的 信息 保持 学 习 过 程 (information -~ preserving leaming procedure ) 的 整个 算法 族 ， 包 括 
GEKF。 作 为 一 般 的 法 则 ， 人 在 解 的 质量 方面 我 们 期 望 DERTF 产生 的 性 能 能 接近 GEKF 但 不 希望 
超过 它 的 性 能 。 另 一 方面 ，DEKF 计算 上 要 求 比 GEKF 要 少 ， 虽然 DEKF 有 计算 上 的 优点 ， 
疯 在 计算 机 速度 和 内 存 的 增加 使 得 GEKF 对 于 特定 的 问题 的 计算 成 为 可 能 ， 特 别 是 在 递归 网 
络 的 离线 训练 时 。 





表 153 DEKF 算法 小 结 





初始 化 : 
1. 对 递归 网 络 的 突击 权 值 版 巴 从 一 个 均匀 分 布 中 逃 出 的 较 小 值 - 
2. 嗜 协 方差 矩阵 Q( nj( 表 下 人 为 寿 人 的 过 程 噪声 a( nj) 等 于 10-6 到 10-2。 
3.K(1，0) =3 11，5= 小 的 正常 数 。 

计算， 
对 n=1, 2，…， 计算 


TO [六 CE- DC RD 


GD= Kmnn-Dertarto) 
am= naonln-D 
久 (m+11O= (nln-D+GCaen) 
KKCn+ln)=Kan-l -GCCOeEK(an -ID+QCn) 
其 中 第 三 行 蚂 ala - 1) 为 网 络 对 输 人 向 量 efa) 产 生 的 实际 输出 向 长 了 Cn)。 





兴 : 对 《= 1( 即 尤 解 狂 )，DEKF 算法 变 为 全 局 扩展 的 Kalman 涉 波 (CEKE) 算 法 
计算 复杂 性 


表 15-4 提出 本 章 所 讨论 的 三 种 学 习 算法 计算 复杂 性 的 比较 : 通过 时 间 的 反 向 传播 ， 实 
时 递归 学 习 ， 解 耦 扩 展 Kalman 滤波 器 。 它 们 计算 复杂 性 依次 增加 。 


表 154 用 于 递归 网 络 的 学 习 算法 的 计算 复杂 性 比较 





S = 状态 数 
丈 = 突 触 权 值 数 
工 = 训 练 序列 长 度 
1 通过 时 间 的 反 向 传播 { BPTT7 
”时 间 需 求 ， 存 储 空间 需求 ; 0( 械 + 史 )，0( 卫 + 吕 ) 
2. 实时 递归 学 习 (RTRL) 算 法 
”时间 需求 ,存储 空 间 需 求 ，O( WS2 三 ，Of WS) 
3. 解压 扩展 Kalman 滤波 (DEKF ) 算 法 ， 
” 在 最 小 值 处 ，DEKF 利用 RIRL 或 BPTT 计算 导数 ( 作 时 间 和 空间 ) 花 费 同样 的 代价 ; 对 BPTT， 寺 间 和 空间 要 
求 为 网 络 输出 数 p 乘 以 标准 BPTT 计算 单 - -标量 误 卷 项 的 导数 所 花 的 代价 。 
， 另外 ，DEXKF 由 求 的 时 间 复 条 性 为 O( 本 多 + 三 上 外) 恨 及 存储 空间 为 0( 瑟 & 好)， 其 中 8 为 组 数 而 后 为 
第 ;组 神经 元 数 。 当 只 有 -个 权 值 组 时 ， 如 同 在 GEKF 中 - 样 ， 时 间 利 宰 间 人 存储 需求 分 出 变 为 Op 喷 ) 和 
CR 了) 
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15.11 计算 机 实验 
这 个 实验 再 次 讨论 13.5 节 研 究 的 非 线性 时 间 序 列 的 模拟 。 叫 间 序 列 由 频率 调制 信号 定义 : 


xfR) = sin(na +sin(r)) 届 = 0,1.2，… 
我 们 将 研究 用 于 模拟 的 两 种 不 同 结构 : 
*， 递归 多 层 感知 器 人 recurent multilayer perceptmn,RMLP) 有 上 个 输入 节点 ，10 个 递归 神经 
死 的 第 一 隐藏 层 ，10 个 神经 元 的 第 二 隐藏 层 和 1 个 线性 输出 神经 元 。 
。 集中 时 滞 前 馈 网 络 {focused time lagged feedforward network,TLFN )， 包 括 20 个 抽 头 延迟 
时 间 记 忆 ， 和 由 10 个 隐 含 神经 元 和 1 个 线性 输 纪 神经 元 组 成 的 多 层 感知 器 。 














RMIP 比 集中 TEN 有 稍 多 的 突 触 权 值 ， 但 是 只 有 它 一 半 的 记忆 (10 个 递归 节点 和 20 个 抽 头 )。 
利用 DEKP 算法 对 RMLP 进行 训练 。 利 用 扩展 的 Kalman 滤波 器 的 两 种 形式 对 TLFN 进行 
训练 : (DGEKF 算法 ( 即 全 癌 形 式 )，(2)DEKF 算法 ( 即 解 耦 形式 )。 两 个 算法 的 细节 如 下 : 
CERF 
3= 用 作 初 始 化 误差 苏 方差 矩阵 Km ，n - 1) 的 参数 
=0.01 
R(m) = 度量 噪声 am) 的 协 方差 怎 阵 ; 开始 训练 时 R(0) = 100， 在 训练 结束 时 退火 至 
RCn)=3 
QtCn) = 人工 过 程 噪 声 w(n) 的 协 方差 矩阵 ， 开 始 时 Q(0) = 10?， 在 训练 结束 时 退火 
至 Qa)=10 
Rn) 和 Q(a) 的 退火 在 训练 过 程 中 起 到 加 快 学 习 速度 的 作用 。 
。 DERF 
= 组 数 
忆 用 于 RMILP 
1 用 于 集中 TLFN 


其 他 参数 和 GEKF 的 一 样 

训练 是 在 4000 个 样本 序列 上 进行 的 。 对 于 RMLP， 使 用 了 长 度 为 100 的 子 集 ， 在 整个 训 
练 过 程 中 ， 处 理 30 000 个 子 集 。 具 有 4000 个 样本 的 训练 集中 的 每 个 数据 点 处 理 了 大 约 750 
次 。 对 于 集中 TILFN， 在 训练 集中 的 每 个 数据 点 也 处 理 了 约 750 次 、 在 两 种 情况 下 ， 测 试 都 
对 300 个 数据 点 进行 。 

图 15- 14 表示 利用 DEKF 算法 训练 的 RMLP 计算 出 的 单 步 预测 波形 f(n)。 这 个 图 也 包括 
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实际 的 波形 y(z)。 两 波形 很 难 区 分 。 图 15-15a 显示 由 RMLP 产生 的 纠 测 误差 
e(z) = 7(m) -Cn) 

相应 的 由 算法 CEKF 和 DEKF 训练 的 集中 TLEFN 产生 的 项 测 误差 分 别 显示 在 图 15-15b 和 45- 
15c。 通 过 比较 图 15-15 的 结果 及 13.5 节 的 模拟 结果 ， 可 以 得 到 如 下 观察 结果 : 

1. 均 方 误差 意义 上 最 精确 的 模拟 是 由 DEKF 算法 训练 的 RMLP 得 到 ， 对 5980 个 样本 计 
算 的 预测 误差 的 方差 是 1.1839 x 10 一 ， 

2. 对 于 集中 TLEN， 均 方 误 益 意 义 上 的 最 精确 的 借 拟 旦 通过 GEKF 训练 得 到 的 。 对 于 
GEKF 训 练 ， 天 测 误差 的 方差 是 1.3351 x 10， 而 对 于 GEKF 训练 ， 预 测 误差 的 方差 是 
1.5871 x 10“。 两 个 都 是 用 5980 个 样本 计算 的 。 
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图 4- 14 计算 机 建 模 试验 的 实际 波形 ( 实 线 ) 和 项 测 波形 ( 虚 线 ) 登 加 图 ， 
利用 DEKF 算法 训练 的 RMLP 所 计算 孩 测 波形 
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图 15-15 三 种 不 同 模拟 的 板 测 误差 波形 
由 DEKT 训练 的 RMUP， 误 差 方差 1.1839x 10 -+ hb) 由 CEKF 训练 的 TIFN， 误 差 方 莽 = 1.3351x 10-4 
中) 由 DEKF 训练 的 聚焦 TLFN， 误 差 方 菜 = 1.5871x 10 
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3. 对 于 利用 标准 反 向 传播 算法 训练 的 集中 TUFN， 第 13.5 节 报 告 的 预测 误差 的 方差 是 
1.2x10 。 这 比 由 CEKF 算法 和 DEKF 算法 得 到 的 结 昌 要 差 一 个 数量 级 ， 
相对 反 向 传播 而 言 扩展 Kalman 滤波 器 的 优异 的 学 习性 能 归 因 于 它 的 信息 保持 性 。 


15.12 递归 网 络 的 消失 梯度 


递归 网 络 的 实际 应 用 需要 引起 注意 的 “个 问题 是 消失 丸 度 (vanishing gmadient) ， 它 和 依靠 
很 入 以 前 的 输入 数据 用 来 训练 网 络 使 之 在 当前 时 刻 产生 一 个 期 望 响应 有 关 ( Hochueiter, 1991; 
Beogio ai il. ,1994 ) 。 关 键 十 由 于 组 合 的 非 线性 性， 一 个 时 间 上 隔 得 远 的 输入 的 一 个 微小 变 
化 对 网 络 的 训练 几乎 不 会 产生 影响 。 即 使 时 间 上 陋 得 远 的 输入 的 大 的 变化 产生 影响 ， 但 影响 
不 能 被 樟 度 检测 到 ， 这 时 问题 问 样 可 能 出 观 。 消 失 梯度 问题 在 一 些 特定 情况 下 使 得 基于 梯度 
的 训练 算法 中 长 期 依赖 的 学 习 即使 不 是 完全 不 可 能 也 是 变 得 很 用 难 。 

在 Bengio ol al, ，(1994) 中 ， 对 许多 实际 应 用 曾经 讨论 过 ， 需 要 递归 网 络 能 够 存储 任意 
时 间 长 度 的 状态 信息 ， 而 在 有 噪声 的 情况 下 是 天 有 必要 这 样 做 。 在 递归 网 络 状态 变量 中 长 期 
存储 的 有 限 位 的 信息 称 为 信息 锁 存 (infomation lalching)。 信 息 锁 存 必须 很 粤 杆 ， 不 能 被 与 当 
前 学 习 任务 瑟 关 的 事件 天 除 。 用 特殊 术语 ， 我 们 可 以 陈述 如 下 (Bengio st al. ,1994 ): 


如 果 网 络 状态 包含 在 一 个 双 曲 
级 引子 的 压缩 吸引 全 中 ， 则 递归 网 吧 
络 的 鲁 棒 性 信息 锁 存 就 可 以 实现 。 

双 昌 吸引 子 的 概念 在 14 章 讨 
论 。 一 个 双 曲 吸引 子 的 压缩 集 是 在 / 1 
吸引 盆 的 一 个 点 集合 ， 在 这 些 点 处 \ we 
Jacobi 盾 阵 的 所 有 特征 值 的 绝对 值 小 = P: 双 曲 鹏 引子 
于 1。 这 就 意味 着 如 果 递 归 网 络 的 状 不 
态 x(m) 在 一 个 双 曲 吸引 盆 ， 而 不 在 ER 和 
扑 缩 吸引 集中 ， 那 么 在 x(za) 周 围 的 
一 个 不 确定 球 (bal of uncertainty ) 的 
大 小 会 随时 间 而 指数 增长 ， 如 图 15- 
16a 所 示 。 所 以 ， 对 于 递归 网 络 输入 ， 
的 小 扰动 5 噪声) 能 够 将 轨道 推 向 另 / 
一 个 (可 能 是 错 的 ) 吸 引 盆 。 但 是 如 二 证 
果 状态 xn) 继 续 保持 在 双 曲 吸引 子 下 抵 
的 压缩 吸引 集中 ， 这 时 在 输入 x(n) b) 
能 够 找到 一 个 有 失 范 围 使 得 x(m) 停 矶 党 记 
留 在 吸引 子 的 一 定 距 离 之 内 ， 如 图 昌 状 态 x(n) 在 肯 引 委 B 内 但 不 在 压 纵 吸引 集 
15-16 所 示 。 y 肉 虽 状 态 x( a) 在 压缩 吸引 集 y 内 


长 期 依赖 
为 了 理解 梯度 基础 上 学 习 的 鲁 棒 性 信息 锁 存 的 作用 .我 们 注意 在 时 刻 ”应 用 到 递归 网 
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络 的 权 值 向 其 w 由 
9 电 。 
本 


将， 这 各 人数 全 及 信人 四 We 基于 的 并， 代 休 玫 rw 刘 
下 


定义 ， 其 中 d (mn) 是 期 望 响 应 ， 天 回 汪 第 ;1 个 模式 在 时 间 n 时 的 实际 响应 ， 因 此 
可 以 写成 的 形式 : 


Aw(n) = 一 里 





Aw(J- 1 于 (下 加 ]d0o -yo) 
， (15.81) 








-1 了 [党 辣 国史 (ao -yn) 


35x0n] 3wW 
其 中 在 第 二 行使 用 了 微 积分 的 链 式 法 则 ; 状态 向 景 &% (mn) 属 于 训练 样本 的 第 上 个 模式 ， 在 应 
用 诸如 通过 时 间 的 反 向 传播 算法 的 时 候 ， 代 价 函 数 的 偏 微分 根据 在 不 同时 间 标 纺 的 独立 权 值 
进行 计算 。 可 以 扩展 方程 (15.81) 的 结果 如 下 : 


Ar = 1 开发 册 站 二 向 jn -wo) 
第 二 次 应 用 微 积分 的 链 规则 得 到 
了 玖 
Ar |[ 汪 同 福生 深沉 直 ](uoo -yo) 415.62) 


根据 状态 方程 (15.2) 我 们 认识 到 有 

xin) = 中 (KE) uCn)) 1 二 大 < 
因此 我 们 可 以 把 ax, (= )/ax,( 加 解释 为 非 线 性 函数 pg(. ， ) 扩 展 到 二 -大 个 时 间 步 的 Jaeobi 惩 
阵 ， 即 






































ax ,an 
基色 人 = 于 (mn -各 (15.83) 


在 Bengio et el,,(1994) 中 ， 证明 如 果 输 人 u(n) 使 得 递归 网 络 在 时 间 ”=0 之 后 答 棒 地 锁 存 在 
双 曲 吸引 子 内 ， 于 是 Jacobi 矩阵 天 (mn, 丰 ) 关 于 上 是 指数 递减 的 ， 因 此 有 
det( 有 (5)) -0 当 关 一 o 对 所 有 咽 (5.84) 

式 (15.84) 的 含义 是 网 络 的 权 秆 向 量 w 的 一 个 微小 变化 在 最 近 的 过 去 ( 即 接近 当前 时 间 ” 的 关 
的 值 ) 有 作用 。 在 时 间 ” 时 可 能 存在 权 值 向 量 w 的 调整 Aw 使 得 x(m) 移 动 到 一 个 更 好 的 状 吸 
和 盆 ， 但 代价 函数 对 w 的 梯度 并 不 携带 那个 信息 。 

作为 结论 ， 假设 递 归 网 络 的 双 曲 吸引 子 存储 状态 信息 时 使 用 基于 梯度 的 学 习 ， 我 们 可 以 
发 现下 列 陌 种 情况 之 一 : 

。 在 答 人 信和 叶 具 有 了 品 上 声 时 网 络 不 是 鲁 棒 的 ， 或 者 

* 网 络 不 能 发 现 长 期 性 依赖 (即时 间 间 隔 比较 长 的 输入 和 目标 输出 之 间 的 关系 ) 
减轻 递归 网 络 中 由 于 消失 梯度 所 产生 的 困难 包括 如 下 可 能 的 过 程 人 9 ， 

，。 在 训练 过 程 中 ， 利 用 基于 短 符 导 串 优先 的 原则 表示 网 络 以 增加 输入 - 输出 依 颜 的 时 

序 扩展 ， 参 考 15.6 节 中 的 启发 方法 。 


























动态 狗 动 只 计 沟 网 如 569 














扩展 的 Kalman 滤波 器 或 它 的 解 秋 形 式 ， 比 基于 梯度 的 算法 更 高 效 地 使 用 可 用 的 信 
奶 : 扩展 的 Kalman 滤波 器 在 15.10 季 讨 论 。 

*， 使 用 诸如 拟 Newton 最 优化 和 模拟 退火 (Bengio et a. ,1994 ) 等 更 糖 致 的 优化 算法 ; 二 
阶 优化 方法 和 模拟 退火 分 别 在 第 4 章 和 第 11 章 讨 论 。 


15.13 系统 办 识 


系统 闪 识 (system identification) 古 对 - -个 过 程 或 - - 族 未 知 参 数 建 模 的 实验 方法 同 . 它 涉及 
如 下 步骤 : 实验 计划 ， 选 择 模 型 结构 ， 参 数 估计 和 模型 验证 。 和 实际 中 所 做 的 一 样 ， 系 统 状 
识 的 过 程 是 选 代 性 的 ， 我 们 可 能 不 得 不 在 这 些 步 双 间 来 回 重 复 直 到 建立 满意 的 模型 为 止 。 

假设 已 有 一 个 未 知 的 非 线性 动态 设备 ， 需 要 为 它 建立 合适 的 参数 化 的 辨识 模型 。 我 们 选 
择 在 状态 空间 模型 或 答 入 - 输出 错 型 基础 上 建立 系统 辨识 过 程 。 决 定 由 哪 一 个 去 表示 ， 取 诀 
于 输入 的 先 验 信息 和 系统 的 可 观测 量 。 下 而 ， 对 两 种 去 示 都 进行 讨论 。 


使 用 状态 空间 模型 的 系统 办 识 


假设 给 定 的 设备 (plant) 由 状态 空间 模型 描述 ， 
xna+1l) = fxn),uacn)) (15.85) 
Cna) = hx(n)) 《15.86) 
其 中 这 里 姓 …, 和 h( ) 为 向 量 值 的 非 线性 丽 数 ， 两 者 都 假设 为 未 知 的 ; 式 (15.86) 是 式 
(415.11) 的 一 般 形式 。 用 两 个 神经 网 络 去 辨识 系统 ，-- 个 处 理 过 程 方程 (1$.83) ， 另 一 个 处 理 

度量 方程 (15.86) ， 如 图 15- 17 所 示 - 

我 们 认识 到 状态 x(n) 是 x(n+ 1) 的 单 步 延 迟 形式 。 令 &(nm + 1) 豆 示 由 第 一 个 神经 网 络 产 
生 的 区 n+Dl) 的 估计 ， 这 个 神经 网 络 在 图 15- 17a 中 标记 为 1。 这 个 网 络 对 包括 外 部 输入 由 z) 
和 状态 x(z) 的 并 置 输 入 进行 操作 以 产生 六 mn + 1) 。 从 实际 状态 xm + JJ) 中 减 去 估计 值 又 (mn + 
JJ) 得 到 误差 向 量 











efa+l) = xn+l) 一 人 n+l) 

中 忆 n+1T) 起 到 期 望 易 应 的 作用 。 在 这 个 方法 中 很 设 状态 x(n) 实际 上 是 可 用 的 。 误 差 向 
基 e(m+D) 用 作 调 整 神经 网 络 了 的 突 触 权 值 ， 如 图 1$- 17a 所 示 ， 所 以 在 统计 意义 下 最 小 化 
以 误差 问 量 at + 1) 为 基础 的 代价 项 数 。 

图 15-17b 中 尿 记 为 工 的 第 二 个 神经 网 络 ， 通 过 对 未 知 模型 的 实际 状态 xn ) 的 抱 作 产生 
实际 输出 nm) 的 估计 值 8(a)。 从 y(n) 中 减 去 估计 值 gm) 得 到 第 二 误差 向 量 

eatn) = yn)》 -了 Cn) 

其 中 3Cz) 起 到 期 望 响应 的 作用 。 误 差 向 量 e (mn ) 用 于 调整 网 络 [的 突 触 权 值 ， 使 得 在 统计 
意义 下 最 小 化 误差 向 量 er(m) 的 欧 几 里 德 范 数 。 
图 15- 17 所 示 的 两 个 神经 网 络 在 同步 模式 下 运行 ， 提 供 系 统 办 识 问 题 的 状态 空间 解 
(Narendra and Parthasarathy,1990 ) 。 考 虑 到 未 知 系统 (而 不 是 辩 识 模型 ) 的 实际 状态 被 反馈 到 辩 
识 模型 这 个 事实 ， 该 模型 被 称 作 囊 并 行 辩 识 模型 (series-parallel identification model) ， 如 图 15- 
17a 所 示 - 根据 15.9 节 最 后 的 讨论 ， 这 种 形式 的 训练 方法 是 教师 强制 的 一 个 例子 。 

图 15- 17a 的 串 并 行 辨识 模型 应 该 与 并 行 辩 识 模型 作 比 较 ， 在 后 一 模型 中 作用 在 网 络 
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的 xn) 被 人 mu) 代替 ;其 中 人 (am) 是 通过 传递 一 个 单位 延 时 : 工 从 网 络 自身 的 答 出 &z+1l) 
得 到 的 。 这 个 训练 替代 模型 的 实际 好 处 是 神经 网 络 模型 和 未 知 系统 运行 方式 完全 相同 ， 也 就 
是 说 ， 当 训练 结束 后 模型 将 被 使 用 。 因 此 通过 并 行 训练 方式 得 到 的 模型 比 通过 串 并 行 方式 训 
练 得 色 的 模型 有 更 好 的 让 治 行为 。 但 并 行 训练 方式 的 不 利之 处 在 于 它 的 时 间 纤 串 并行 方 式 时 
间 更 长 ， 参 考 15.9 节 所 讨论 的 教师 强制 。 特 别 地 ,在 当前 情况 下 用 于 并 行 训练 方式 的 状态 
估计 值 &(n) 通 常 不 如 用 于 中 并 行 训练 方式 的 实际 状态 x(n) 准 确 。 


输入 未 知 系统 
an) gsgmazzz 上 
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图 15-17 系统 因 识 问题 的 状态 空间 角 
输入 - 输出 模型 


傻 设 下 一 个 未 知 设备 (planb) 只 能 通过 它 的 输出 访问 。 为 简化 表达 ， 假 设 系统 为 单 输入 单 
输出 的 。y(m) 表 示 在 不 同 离散 时 刻 = 时 关于 输入 (nm) 的 输出 。 使 用 NARX 模型 ， 辨 识 模型 
有 如 下 形式 : 
(+I) = yz 7y(-9g+iatnyoatmn-9+1)) 
[sj 其 中 9 是 未 知 系统 的 阶 。 在 时 间 = +1， 输 和 的 4 个 过 去 值 和 输出 的 9 个 过 去 值 都 可 用 。 模 
型 输出 9(m + 切 珍 示 实 际 输 出 y(= + 蕊 的 估计 值 。 从 y(z= + 1 中 减 掉 合计 9(m + 轨 得 到 误差 
售 导 
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efn+l) = ya+l)-9Yna+i) 
其 中 y(na+1) 起 着 期 望 响应 的 作用 。 利 用 次 关 e(mn + 1) 调整 神经 网 络 的 突 触 权 值 使 得 在 统计 
意义 下 最 小 化 误差 。 因 为 系统 (而 不 是 大 识 模型 ) 的 实际 输出 被 反馈 回 模型 的 输入 ， 如 图 15- 
18 的 辨识 模型 足 一 个 串 并 行 形式 ( 即 教师 强制 形式 )。 
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Km 一 了 
un -9+2 和 一 一 
预测 输出 
了 + 旨 
多 层 琵 知 器 > 王 片 
xn-atbl 一 | 
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加 efr+1) 
人 -4+ 习 全 -一 
站 一 - 
加 
yn 三 一 一 
yz+1) 


15-18 系统 辨识 问题 的 NARX 解 


梧 .14 ”模型 参考 自 适 应 控制 


递归 网 络 的 另 一 应 用 是 设计 反馈 控制 系统 ， 在 这 里 设备 (plant) 状 态 由 强加 的 控制 非 线性 
地 克 合 (Puskorius and Feldkamp,1994; Puskorius et ai. ,1996 )。 系 统 的 设计 由 其 他 因素 例如 无 法 
测量 的 随机 扰动 、 可 能 系统 的 逆 不 惟一 以 及 出 现 不 可 观察 的 系统 状态 而 进一步 复杂 化 。 
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适合 使 用 神 兹 网 络 的 控制 策略 足 寞 型 参考 自 适 应 控制 (model reference adaptive contmol， 
MRAC) 5 。 这 里 蕴含 的 假设 是 设计 者 对 所 考虑 的 系统 足够 熟悉 (Narendra and Annaswany， 
1989 ) 。 图 15- 19 显示 这 样 一 个 系统 的 框图 ， 其 中 肯 适 应 性 用 来 解释 系统 的 动力 学 性 质 中 未 
州 的 这 个 事实 。 控 制 器 和 系统 形成 一 个 封闭 的 环 状 反 馈 系 统 ， 因 此 组 成 一 个 外 部 回归 
(extemaily recurent) 了 网络。 设备 从 控制 器 接受 输入 生 (n) 以 及 外 部 的 -- 个 扰动 mt)。 相 应 
地 ， 设 备 及 时 地 演化 为 温 制 输 人 和 系统 日 英 状 态 妈 (m) 的 函数 。 设 备 箱 出 (n+l) 是 如 (ny) 
的 函数 。 设备 输出 也 可 能 被 度量 噪声 所 损 环 。 
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ae) 





图 15-19 使 用 直接 控制 的 各 型 参考 自 适应 控制 


控制 器 接受 两 个 输入 : 外 部 指定 的 参考 信和 导 r(n)， 以 及 圾 示 设 备 输出 mw (mn + 1) 单 步 延 

迟 形式 的 y,(a)。 控 制 器 产生 控制 信号 向 量 ， 定 义 为 

em) = (Xen) yo) Cn) mw) 
其 中 天 (2) 为 控制 器 自身 的 状态 ，mw 是 可 调 的 参数 庙 和 最。 向 量 值 函数 有 (- ， ，…，) 定 义 控制 
器 的 输入 - 输出 行为 。 

设备 期 望 响应 d( n+ 1) 是 由 稳定 参考 模型 (reference model) 的 输出 提供 的 ， 它 是 响应 参考 
(za) 而 产生 的 。 期 望 响应 dm + 1) 因 此 是 参考 信号 r(n) 和 参考 模型 自身 状态 x(n) 的 函数 ， 
表示 为 

dama+1l) = 到 (xn)r(n)) 
向 量 值 函 数 名 ('， ) 定 义 参 考 模型 的 输入 - 输出 行为 。 
输出 误差 * 即 设备 和 模型 参考 输出 之 间 的 误差 ) 记 为 
es(na+li=adm+i) -n+1l) 
设计 目标 是 调整 控制 器 的 参数 向 量 w， 使 得 输出 误差 ee( n) 的 欧 几 里 德 范 数 是 对 时 间 = 的 最 
小 化 。 

丽 15- 19 的 MRAC 系统 的 控制 方法 被 称 为 直接 的 ， 这 是 指 不 用 办 识 设备 参数 ， 而 是 直接 
调整 控制 器 的 参数 提高 系统 性 能 。 不 幸 的 是 ， 当 前 还 没有 在 输出 误差 基础 上 调整 控制 器 参数 
的 精确 方法 (Narendrma and Parthssarathy,1990 )。 这 是 因为 未 知 设备 处 于 控制 器 和 输出 误差 之 
间 。 为 克服 这 个 困难 ， 我 们 可 以 用 间接 控制 (indirect contol) ， 如 图 15-20 所 示 。 后 面 这 种 方 
法 ， 使 用 两 步 过 程 训练 控制 器 ， 
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1. 设备 了 的 模型 记 为 ， 它 是 根据 系统 输出 对 设备 输入 、 以 前 的 设备 输出 和 以 前 的 设备 
内 部 状态 的 微分 关系 的 估计 重 得 到 的 。 在 前 一 节 描 述 的 过 程 用 于 训练 神经 网 络 使 之 
办 识 设备 ;这样 得 到 模型 户 称 为 撩 识 模型 

2. 使 用 辨识 模型 P 蔡 代 设 备 以 得 到 设备 输出 对 控制 器 可 调整 参数 向 量 的 动态 导数 的 估 





Treo 
在 间接 控制 里 ， 外 部 递归 网 络 包括 控制 器 和 通过 辨识 模型 产生 的 设备 输入 /得 出 表示 。 
在 图 15-20 的 一 般 结构 中 ， 递 归 网 络 对 于 控制 器 设计 的 应 用 有 一 系列 广为人知 例子 ， 如 




















小 车 - 单 立 摆 (cart-pole) 问 题 ， 生 物 反应 器 标准 测试 (bioreacter benchmark) 问 题 以 及 自动 控制 
子 系统 ， 即 发 动机 慢 速 (engine idle-speed) 控 制 (Puskorius and Feidkamp, 1994, Puskorius et al.， 
1996 )。 在 这 些 研究 里 的 递归 网 络 是 和 15.2 节 的 讨论 相似 的 递归 多 层 感 铸 器 。 网 络 的 训练 使 
用 15.11 节 的 DEKF 算法 。 但 注意 ， 对 于 发 动机 慢 速 控制 因为 强加 的 控制 (在 适当 选择 的 范 
四 内 ) 单 调 地 影响 发 动机 速度 ， 选 择 了 一 个 线性 动态 系统 作为 辨识 模型。 

et 
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35-20 通过 执 识 模型 利用 间接 控制 的 模型 参考 自 适应 控制 


15.15 小 结 和 讨论 


本 章 讨 论 涉及 应 用 全 局 反馈 到 静态 (无 记忆 ) 多 层 感 所 器 的 递归 网 络 。 反 馈 的 应 用 使 得 神 
经 网 络 获得 状态 表示 ， 使 得 它们 成 为 信号 处 理 和 控制 中 各 种 应 用 的 合适 工具 。 属 于 有 全 局 反 
馈 的 递归 网 络 类 型 的 四 个 主要 网 络 结构 如 下 : 

。 使 用 从 和 输出 层 反馈 到 输入 层 的 具有 外 部 输入 的 非 线性 自 回归 (NARX) 网 络 。 
*。 具有 从 隐藏 层 到 输入 层 反馈 的 完全 连接 递归 网 络 。 
”有 多 于 一 个 隆 藏 层 的 递归 多 层 感知 器 ， 其 中 每 个 计算 层 输 出 反馈 到 它 自己 的 输入 。 
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。， 使 用 一 阶 神经 元 的 二 阶 递归 网 络 。 

在 所 有 这 些 递归 网 络 中 ,反馈 通 过 抽 头 延迟 线 记 忆 。 

前 三 个 递归 网 络 可 以 使 用 状态 空间 框架 研究 其 动态 行为 。 这 个 根植 于 现代 控制 论 的 方法 
提供 一 个 研究 非 线性 动态 递归 网 络 的 一 个 有 力 的 工具 。 

我 们 描述 三 种 基本 的 算法 来 训练 递归 网 络 的 算法 ， 通 过 时 间 的 到 向 传播 LBPTT)， 实 时 
递归 学 习 (RTRL)， 和 解 硝 扩 展 的 Kalman 滤波 器 (DEKF)。BPTT 和 RTRL 算 法 是 建立 在 样 度 基 
础 三 的 ， 而 DEKF 算法 对 高 阶 信息 的 使 用 更 有 效 。 因 此 它 可 以 比 BPTT 和 RTRL 收敛 更 快 ， 
但 也 增加 相应 的 计算 复杂 性 。 实 际 上 DEKF 算法 可 以 看 做 是 一 种 可 能 使 用 的 技术 ， 它 使 得 解 
决 困难 的 信号 处 理 和 控制 问题 成 为 可 能 。 





























理论 上 ， 有 全 局 反馈 (例如 使 用 DERKF 算法 训练 的 递归 多 层 感知 器 ) 的 递归 网 络 可 以 学 习 
非 定 常 (nonstationary) 环 境 丰 的 固有 动力 学 系统 ， 这 是 通过 将 从 训练 样本 中 获得 的 知识 存储 在 
一 个 固定 的 权 值 集合 中 实现 的 。 更 重要 的 是 ， 假 设 满足 下 面 两 个 条 件 网 络 可 以 违 踪 环境 的 统 
计 变 化 ， 

* 递归 网 络 不 发 生 从 适应 (underfitting) 或 过 适应 (overditting) 。 

。 训练 样本 表示 环境 的 非 定 常 行为 。 

综观 全 章 ， 我 们 强调 利用 递归 网 络 进行 时 序 处理 。 递 归 网 络 也 可 以 用 于 处 理 一 系列 有 序 
的 数据 ， 这 些 数据 并 没有 直接 的 时 序 解释 (如 表示 为 树 的 化 学 结构 )。 在 Sberduti and Starita 
〈1997) 中 ， 递 归 网 络 可 以 表示 和 分 类 结构 化 模式 ， 这 些 模式 可 以 表示 成 有 向 图 、 带 标号 图 和 
无 环 图 的 形式 。 这 种 方法 背后 的 主导 思想 是 在 这 里 被 称 作 * 广 义 递归 神经 元 "， 这 是 指 一 个 递 
归 神 经 元 ( 即 具 有 局 部 反馈 的 神经 元 ) 结 构 上 的 推广 。 通 过 使 用 这 样 一 个 模型 ， 监 督学 习 算法 
诸如 通过 时 间 的 反 向 传播 和 实时 递归 学 习 都 可 以 被 扩展 以 处 理 结构 化 模式 。 


注释 和 参考 文献 


[1 关于 其 他 递归 网 络 结构 ， 郊 Jordan ( 1986)，Baek and Teoi(1991)，Frasconi et 民 ,， 
【1992)， 以 及 Robinson and Fallside(1991) 。 

[2] NARX 模型 包括 一 类 重要 的 非 线性 离散 时 妆 系 统 (Leontariis and Billings, 1985)。 涉 及 到 
神经 网 络 这 方面 的 讨论 可 以 参考 Chen et l, ，(1990) ，Narendra and Parthasaraihy(1990) ， 
Iin et al. ，(1996)} 和 Sieglemann et al.,，(《1997) 。 
已 经 证 实 NARX 模型 十 分 适合 对 非 线 性 系统 进行 建 模 ， 如 热 交换 器 (Chen el 由 , ,1990) ， 
污水 处 理 设备 (Su and McAvoy,1991;Su et al. ,1992) ， 用 于 石油 提炼 的 催化 更 新 系统 (Su 
et al.,1992)， 在 生物 系统 中 的 多 肢 移 动 的 非 线 性 振 荔 (Yenkataraman, 1994) 和 语法 推理 
《Giles and Home ,1994)。 
NARX 模型 也 指 非 线性 自 回 归 禄 动 平均 (NARMA) 模 型 ， 其 中 "滑动 平均 "是 对 于 输入 而 






























































[3] 图 15-4 的 递归 多 层 感 知 器 是 Jordan(1986) 撒 述 的 递归 网 络 的 推广 。 

[4] DOmlin and Giles(1996) 指 出 ， 用 二 阶 递归 网 络 ， 任 何 有 限 状态 自动 机 可 以 贞 射 到 这 样 一 
种 网 络 ， 且 可 以 保证 有 限 长 度 的 时 序 序列 的 正确 分 类 。 

[5] 可 控 性 和 可 观察 性 的 严格 处 理 可 以 参考 Zadeh and Desoer( 1963) ，Kailath(1980) ，Soniag 
《1990) ，Lewis and Symos(1995)。 
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有 关 神 经 网 络 和 自动 机 (实际 上 是 串 行 机 器 - 自动 机 的 实现 ) 方 面 的 最 早 工作 ， 即 第 一 
篇 关于 有 限 状态 自动 机 、 人 工 智能 和 递归 神经 网 络 方面 的 论文 ， 是 MeCulloch and Pitts 
(1943) 的 著名 的 论文 。 递 归 网 络 ( 具 有 瞬时 反馈 ) 是 这 篇 论文 的 第 二 部 分 ， 这 在 Keene 
(1956) 被 解释 为 一 个 有 限 状 态 自动 机 。Kleene 的 论文 出 现在 由 Shannon 和 MeCarthy 编辑 
的 《自动 机 研究 》(Automata Studies) 一 书 中 (这 本 惊 志 之 作 的 作者 还 包括 Moore，Minsky， 
von Neumann，Utdley，MeCarhy 和 Shannon 等 人 )。 有 时 候 ，Kleene 的 论文 被 作为 有 限 状 
态 抽 器 方面 的 第 一 篇 文章 引用 (Perin，1990)。Minsky(1967) 在 他 的 《计算 : 有 限 和 无 限 
机 器 3(Computation，TFinite and Infinite Machines) 一 书 中 讨论 自动 机 和 神经 网 络 。 

听 有 关于 自动 机 和 神经 网 络 方面 的 晤 期 工作 主要 考虑 怎样 将 二 者 结合 在 一 起 ， 就 是 说 ， 
如 何 建造 和 设计 自动 机 到 神经 网 络 中 去 。 因 为 大 多 数 自动 机 ( 当 被 实现 为 串 行 机 器 的 时 
候 ) 需 要 反馈 ， 神 经 网 络 必须 为 递归 的 。 注 意 早期 的 工作 (除了 Minsky 的 ) 并 没有 明确 
地 区 分 自动 机 (有 向 图 ， 标 记 图 ， 无 圈 图 ) 和 串 行 机 器 ( 逮 辑 延 时 和 反馈 延 时 )， 大 多 数 
情况 下 仅 考 虑 有 有限 状 态 自 动机 。 对 于 提高 自动 机 的 层次 到 下 锥 和 白 动机 和 图 灵机 没有 仁 
么 兴趣 (除了 Minsky 之 外 )。 
在 神经 网 络 的 黑暗 时 代 过 去 之 后 ， 关 于 自 劲 机 和 神经 网 络 方面 的 研究 在 20 世纪 8 年 
代 又 开始 了 了 。 这 个 工作 可 以 大 概 分 为 下 面 三 个 大 的 领域 ，(1) 学 习 自 动机 ，(2) 自动 机 
关于 知识 的 合成 、 抽 取 和 提炼 ，(3) 表 示 。 首 先 提 到 自动 机 和 神经 网 络 的 是 Jordan 
(1986)。 

使 用 MeCulloch - Pitts 神经 元 的 单 层 递归 网 络 不 能 模拟 任何 有 限 状态 的 机 (Coudrean t 
al.，1994)， 但 Eimnan 的 简单 递 轨 网 络 可 以 作 这 样 的 模拟 (Kremer，1995)。 只 有 局 部 反 
人 馈 的 递归 网 络 不 能 表示 所 有 有 限 状态 机 ( Frasconi and Cori,1996; Giles et al. ,1995; Kremer， 
1996) 。 























] 通过 时 间 的 反 向 传播 的 思想 ， 是 对 于 每 一 个 递归 网 络 都 可 能 建立 一 个 前 僻 网 络 ， 使 之 


在 一 个 特定 的 时 间 间 隔 内 具有 和 它 相 同 的 行为 (Minsky sand Papert, 1969)。 通 过 时 间 的 反 
向 传播 首先 由 Werbos( 1974) 的 博士 论文 讨论 ; 也 可 以 参考 Werhos(1990)。 这 个 算法 由 
Ruamelhar et al.，(1986b) 独 立地 重新 发 现 。 通 过 时 间 的 反问 传播 算法 的 一 个 变 体 由 
Wiliams and Peng (1990) 所 讨论 。 对 于 算法 的 综述 和 相关 的 问题 ， 可 以 参考 克 ]liams and 
Zipser(1995)。 

实时 递归 学 习 算 法 在 神经 元 网 络 文献 中 的 第 一 次 描述 是 Williams and Zipser(1989)。 
来 源 可 以 追溯 到 McBride and Narendra( 1965) 用 于 调节 任意 动态 系统 参数 的 系统 辨识 的 论 
文 。 

Wiliams 和 Zipser 给 出 的 推导 是 关于 完全 说 归 的 单 层 神经 网 络 。 它 已 扩展 为 更 一 般 的 结 
构 ; 例如 ， 参 考 Kechriotis et al.，(1994); Puskorius and Feldkamp(1994)。 

Kaiman 恋 波 器 理论 来 源 于 Rudolf 下 .Kaiman(1960) 的 经 典 论文 。 它 已 成 为 信号 处 理 和 控 
制 的 核心 部 分 ， 并 且 在 很 多 领域 有 很 广泛 的 应 用 。 对 于 标准 Kalman 滤波 器 、 它 的 变 体 
和 它 的 用 于 处 理 非 线性 动态 系统 的 扩展 形式 以 及 它们 的 详细 细节 ， 可 以 参考 Grewal and 
Andrews (1993) 和 Haykin(1996) 。 由 Grewal 利 Andrews 写 的 书 全 部 讨论 的 是 Kalman 滤波 
器 的 理论 和 实践 。 由 Haykin 写 的 书 ， 从 自 适应 的 滤波 方面 讨论 Kalman 滤波 器 的 理论 。 
另外 两 本 这 个 方面 的 重要 的 书 是 jarwinski(1970) 和 Maybeck(1979,1982)。 
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[11] 平方 根 Kalman 滤波 器 细节 处 理 和 实现 它 的 有 效 方法 ， 见 Haykin(1996) 。 

[12] Singhal anq Wu 1989) 也 许 是 第 一 个 展示 用 扩展 的 Kalman 滤波 器 提高 监督 神经 元 网 络 的 
映射 性 能 。 不 幸 的 是 ， 那 里 讨论 的 训练 算法 受 限 于 它 的 计算 的 复杂 性 。 为 克服 这 个 困 
难 ，Koilias and Anastassiou(1989) ，Shah and Palmiea( 1990) 尝 试 通过 将 全 局 问题 分 为 一 系 
列子 问题 ， 每 个 子 问题 表示 一 个 单一 的 神经 元 ， 以 简化 扩展 的 Kalman 滤波 器 的 应 用 。 
但 是 作为 一 个 辨识 问题 的 每 一 个 神经 元 的 处 理 并 不 是 严格 地 遵守 Kalman 滤波 器 理论 。 
还 有 ， 这 样 处 理会 当 致 吉 练 过 程 中 的 不 稳定 行为 ， 并 且 可 能 得 到 比 别 的 方法 得 到 的 结 
果 还 差 的 解 (Puskorius and Feldkamp,1991) 。 

[13] 消失 梯度 问题 的 其 他 处 理 方法 包括 绕 过 一 些 递归 网 络 的 非 线性 特性 以 便 改 进 长 期 学 习 
的 依 吾 性 。 这 种 处 理 的 例子 包括 : 

。 在 网 络 体系 结构 中 使 用 长 期 延迟 [局 Hihi and Bengio,1996;Lin et al , ,1996; Giles et al. ， 
1997) 

"。 与 不 同时 间 尺 度 联系 的 多 级 网 络 层次 化 结构 (如 Hihi and Bengio,1996) 

* 用 门 单元 避 开 某 些 非 线 性 性 (Hochreiter and Scbmidhuber.1997) 

[14] 系统 办 识 有 许多 文献 。 对 于 这 个 主题 讨论 的 书籍 ， 可 以 参考 Ljung(1987) ，Uung and 
Glad (1994)。 对 于 这 个 问题 特别 是 将 重点 集中 在 神经 网 络 上 的 综述 可 以 参考 jiberg 对 
al.,，《1995) 和 Narendma(1995)。 使 用 神经 网 络 对 于 系统 办 识 进行 详细 的 研究 首先 是 
Narendra and Parthasamthy(1990)。 

[45] 对 模型 参考 自 适 应 控制 的 详细 讨论 ， 是 Lanqan( 1979) 的 书 。 

习题 

状态 空间 模型 
45.1 写 出 图 15-3 的 也 man 简单 递归 网 络 状态 空间 模型 的 计算 公式 。 

1.2 证 实 图 15-4 的 递归 多 层 感 知 器 可 以 用 状态 空间 模型 
X(n+1l) =fxCn)yan)) 
y(n) = gxCn)agn)) 

表示 ， 其 中 汪 n) 表 示 输 入 ，y(m) 表 未 输出 ，x(n) 表 示 和 状态 ，f(， ) 和 &-，) 表 示 向 量 值 上 不 

线性 函数 。 
15.3 ”一 个 动态 系统 是 否 可 能 是 可 控 的 但 不 可 观察 的 ， 而 且 反之 亦 然 ? 证 实 你 的 答案 。 
15.4 参考 15.3 节 的 局 部 可 控 人 性 问题 ， 证 实 
《a) 状 态 x(n+ 9) 是 它 过 去 值 xn) 和 式 (15.24) 的 输 人 向 量 n (=) 的 搬 套 非 线性 函数 。 
(b)x(n+9) 对 ui(a) 的 Jacobi 和 邱 阵 在 原点 求 值 等 于 式 (15.23) 可 控 性 矩阵 M, 。 

15.5 参照 15.3 节 的 局 部 可 观察 性 问题 ， 证 明定 义 在 式 (15.30) 中 的 观察 向 量 y,(m) 对 
状态 办 m) 的 Jaeohi 矩阵 在 原点 的 求 值 等 于 式 (15.28) 的 可 观察 矩阵 M 。 
15.6 ， 非 线性 动态 系统 的 过 程 方程 由 
(PP+1l) = xna), uce)) 
描述 ， 其 中 改 m) 是 在 时 刻 mn 的 输入 向 量 ，x(n) 是 对 应 的 系统 状态 。 输 入 um) 过 程 方程 中 
以 非 加 性 的 方式 出 现 。 在 本 题 中 ， 我 们 希望 重新 写 过 程 方程 ， 使 输入 u(n) 以 加 性 的 方式 出 
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现 。 这 仅 需 写成 

Wfn+l)y=f(n))+wCn) 
给 出 向 量 x(z) 和 下 (mn) 以 及 函数 fe() 的 定义 公式 。 
15.7 食 4-22 提出 在 神经 元 级 上 的 使 用 局 部 反馈 的 递归 网 络 模型 的 两 个 例子 。 在 图 中 
的 a 部 分 和 部 分 显示 的 体系 结构 分 别称 为 局 部 激活 反馈 和 局 部 输出 反馈 (Tsoi and Back， 
1994)。 对 这 两 个 递归 网 络 的 体系 结构 ， 写 出 状态 空间 模型 公式 。 评 价 它们 的 可 控 人 性 和 可 观 
察 性 -。 
























































图 15-21 
二 局 部 激活 反馈 体系 结构 “b) 局 部 输出 反馈 体系 结构 


有 外 部 输入 的 非 线 性 自 回 归 {NARX) 模 型 

15.8 参考 15.4 节 的 NARX 模型 ， 证 明 式 (15.16) 和 (15.17) 的 使 用 导致 NARX 模型 的 输 
出 y(za+9) 关 于 状态 x(n) 和 输 人 向 量 u(mn) 的 表达 如 下 : 

7(m+9) = @Cx(n),m(n)) 

其 中 惠 : 谨 ? 一 民 ，u, 按 式 (15.29) 定 义 。 

15.9 (〔a)15.4 节 讨论 的 NARX 模型 的 推导 是 单 输入 单 输出 系统 。 讨 论 那里 描述 的 理论 
如 何 推广 到 多 输入 多 输出 系统 。 

(b) 建 立 等 价 于 图 15.6 中 的 两 个 输入 一 个 输出 的 状态 空间 模型 的 NARX。 

15.10 建立 对应 于 图 15- 22 中 的 完全 递归 网 络 的 NARX。 。 

15.11 在 1.4 节 我 们 证 明了 任何 状态 空间 模型 可 以 表达 成 NARX 模型 。 反 过 来 的 结果 如 
何 ? 任何 的 NRAX 模型 是 否 都 可 以 表达 成 15.3 节 形 式 的 状态 空间 模型 ? 说 明 你 的 结论 的 理由 。 
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15-22 


通过 时 间 的 反 向 传播 

15.12 家 开 图 15-3 的 状态 空间 模型 的 时 序 行为 。 

15.13 截断 的 BPTT(R) 算 法 可 以 看 作 是 分 阿 合 的 BPTT 算法 的 近似 。 可 以 通过 将 分 回合 
BPTT 算法 的 一 些 方面 包括 进 BPTT(/) 来 提高 这 个 近 亿 程度 。 特 别 是 可 以 让 网 络 在 执行 下 一 
个 BPTT 计 算 前 通过 产 个 附加 步 ， 这 蛙 六 < 关 。 通 过 时 间 的 到 向 传播 的 混合 形式 的 重要 特征 
是 下 一 个 后 向 传播 在 时 间 步 = + 忆 之 后 才 执行 。 在 此 期 间 ， 网 络 过 去 输入 值 、 网 络 状态 和 期 
望 的 响 宙 都 存 鱼 在 一 个 缓冲 区 里 面 ， 但 并 不 对 于 它们 进行 处 理 (Williams and Peng,1990 ) 。 在 
这 个 混合 型 的 算法 中 给 出 神经 元 ; 的 局 部 梯度 的 公式 。 
实时 递归 学 习 壬 法 

15.14 教师 强制 递归 网 络 在 训练 过 程 中 的 动态 在 15.8 节 中 描述 ， 但 是 要 除开 下 面 的 变 














化 ; 
(mm)， 如 果 守 GE 况 
Sn) = Gan) 如 果 宇 E 角 
()， 如 有 果 衬 的 驳 ~ 马 
其 中 % 征 当 # 是 一 个 外 部 输入 时 下 标 为 ; 的 集合 。 多 表示 当 & 是 一 个 神经 元 的 输出 时 下 标 字 
的 集合 ，@ 表 示 可 见 的 输出 神经 元 的 集合 。 
(a) 证 明 对 这 个 格式 ， 往 导数 37j(m+ Lawu(a) 由 下 式 给 出 (Wiliams and Zipser,1989 ); 
| 了 ae 
(b) 对 于 教师 强制 递归 网 络 推导 训练 算法 。 
解 精 扩 展 的 Kalman 滤波 器 {DEKF) 算 法 
15,45 描述 图 15-3 的 DEKF 算法 如 何 训练 简单 递归 网 络 。 对 于 这 个 训练 也 可 用 BPTT 算 























到 起 闫 形 时 磋 汐 克 过 
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法 。 


15.16 用 通常 的 形式 ，DEKF 被 用 作 执 行 权 值 更 新 ， 一 个 例子 接 一 个 例子 的 方式 进行 。 


反之 ， 在 标准 反 向 传播 里 ， 执 行 简单 的 梯度 更 新 ， 这 使 我 们 可 以 选择 立即 使 























这 些 更 新 还 是 


将 这 些 更 新 积累 一 段 时 间 ， 然 后 将 它们 作为 单一 的 组 合 更 新 。 虽 然 可 以 在 DEKF 算法 中 尝试 
积累 ， 但 这 样 做 也 有 可 能 在 权 值 向 量 和 误差 协 方 差 和 矩阵 间 造成 不 一 致 ， 该 矩阵 是 每 个 时 间 递 
妇 痢 更 新 一 次 ， 以 产生 一 个 权 值 更 新 。DEKF 训练 算法 的 使 用 表现 为 排除 集中 式 更 新 。 但 可 
以 使 用 多 流 (multistream)DEKF 训练 ， 它 允许 多 个 训练 序列 的 进行 ， 又 保持 与 Kalmur 滤波 器 
理论 的 一 致 性 ，Feldkamp et al ，(1997)，Faldkamp and Puskorius(1998) 中 的 描述 。 

Ca) 考虑 有 Nu 个 输入 和 Nu 个 输出 和 固定 六 个 训练 样本 的 训练 问题 。 对 训练 样本 来 
说 ,组成 8 < 六 个 数据 流 以 馈 给 于 个 网 络 ， 这 些 网 络 受到 具有 相同 权 值 的 限制 。 在 每 个 


训练 循环 ， 每 个 数据 流 中 的 模式 呈现 给 各 自 的 网 络 ， 对 于 每 个 数 
然后 计算 单个 权 值 更 新 并 以 同样 的 方式 又 应 用 到 每 个 流 的 网 络 。 


的 形式 。 

(pb) 考 虑 标准 XOR 问题 的 
人 饮 网 络 。 我 们 有 效 地 使 
的 延迟 形式 ， 它 们 中 的 每 一 个 纪 























四 个 网 络 输出 : 反馈 到 
成 一 个 新 的 

















络 输出 。 对 这 个 网 








用 四 种 训练 模式 ， 但 不 
训练 模式 处 理 过 程 的 网 络 输 出 ， 
训练 模式 和 四 个 网 络 输出 的 基础 
题 。 检 查 该 实例 。 

二 阶 递归 网 络 








据 流 计算 出 N。 个 输出 。 
导出 DEKF 算法 的 多 流 


种 训练 模式 。 假 设 有 一 个 连接 到 输出 层 的 延迟 线 记忆 的 前 
延迟 线 记 忆 的 实际 的 网 络 输出 ， 三 个 它 


络 结构 以 一 定 的 顺序 应 








涩 行 权 值 更 新 。 当 第 四 个 训练 模式 结束 后 ， 就 有 了 
这 是 在 具有 村 














15.17 在 本 题 中 ， 研 究 用 二 阶 递归 


1 序列 中 ， 这 个 自动 机 下 以 识别 奇数 个 1。 
15- 23 显示 两 种 状态 的 自动 机 。 状 态 由 了 图 图 表示 ， 箭 头 表 示 状 态 的 转变 。3 表示 我 们 














络 建立 相似 的 有 限 状 态 自 




















在 那个 状态 开始 ,在 这 里 是 状态 4。 粗 

















个 代表 四 种 


同 权 值 的 网 络 上 进行 的 。 如 果 考 虑 在 四 种 
上 执行 DEKF 算法 的 单一 权 值 向 量 更 新 ， 就 有 了 四 个 流 问 











动机 。 在 任意 长 度 的 0， 











圈 表 示 无 论 何 时 达到 了 天 








了 .我 们 就 搂 受 该 字符 串 。 自 动机 开始 检查 





状态 4 的 字符 串 ， 如 果 到 一 个 0 就 下 


个 状态 ， 如 图 








中 的 状态 
到 状态 




















4 ， 如 果 是 1 则 同和 到 状态 3B。 相 似 地 ， 当 在 状态 中 的 时 候 ， 如 果 遇 到 一 个 0 就 回 到 状态 3 ， 
如 果 遇 到 1 则 回 到 状态 4。 以 这 种 方式 ， 如 果 有 偶数 个 1( 包 括 0 个 ) 则 自动 机 在 状态 4， 如 


果 有 奇数 个 1 则 在 状态 B。 








态 为 了 = 日， 状态 转换 函数 如 下 : 


峰 15-23 


更 正式 地 定义 状态 Q= i4，B1，3S = 4 为 初始 状态 ， 输 入 字母 为 瑟 = 10，11， 


习 受 状 








788 











580 才 语 机 





34,0) = 4 
SC4,1) = 瑟 
83(B8,0) = 了 
8(B,1) = 4 
对 于 二 阶 递归 网 络 ， 这 就 是 式 (15.9) 的 应 用 需要 的 一 些 等 式 。 关 于 有 限 状 态 自 动机 的 细节 ， 
见 Hopcroft(1979)。 
对 上 述 转换 规则 进行 编码 到 二 阶 递归 网 络 中 趟 。 
15.18 在 15.8 节 ,我们 导出 使 用 一 阶 神经 元 的 完全 连接 递归 网 络 的 实时 递归 学 习 
《RERL) 算 法 。 在 15.2 节 ， 我 们 描述 使 用 二 阶 神 经 元 的 递归 网 络 。 
通过 推导 用 于 训练 二 阶 递归 网 络 的 RTRL 算法 ， 推 广 15.8 节 描 述 的 理论 。 











后 记 


神经 网 络 代表 一 种 多 学 科 主 题 ， 它 植 根 于 神经 科学 、 数 学 、 统 计 学 、 物 理学 、 计 算 机 科 
学 和 工程 学 ， 这 可 出 这 本 书 所 涵盖 题材 的 多 样 性 为 证 。 它 们 在 有 教师 或 无 教师 情况 下 从 数据 
中 学 习 的 能 力 贼 予 它们 强 有 力 的 性 质 。 这 种 学 习性 质 且 有 深远 的 理论 和 实际 意义 。 神 经 网 络 
以 这 种 或 那 种 形式 从 例子 (它们 环境 的 表示 ) 学 导 的 能 力 ， 已 经 使 得 它们 在 如 此 众多 的 应 用 中 
成 为 非常 宝贵 的 工具 ， 比 如 建 模 、 时 间 序 列 分 析 、 模 式 识别 、 信 号 处 理 和 控制 。 特 别 地 ， 当 
一 个 感 兴趣 的 问题 的 解 由 于 以 下 一 点 或 几 点 变 得 困难 时 ， 神 经 网 络 可 提供 大 量 的 东西 ; 

， 缺乏 问题 的 物理 /统计 的 理解 。 

， 在 可 观察 数据 中 的 统计 变化 。 

。 数据 产生 的 非 线性 机 制 。 

神经 网 络 的 新 浪潮 (从 20 进 纪 80 年 代 中 期 开始 ) 蕊 经 来 临 ， 因 为 学 习 可 以 在 许多 层次 进 
行 。 基 于 学 习 算法 的 神经 网 络 使 我 们 可 以 在 手写 体 识别 器 中 免除 手工 特征 提取 。 由 神经 网 络 
激发 的 基于 梯度 的 学 习 算 法 允许 我 们 同时 训练 特征 提取 响 、 分 类 器 和 上 下 文 处 理 器 ( 隐 
Markov 模型 和 语言 模型 ) 。 由 于 神经 网 络 我 们 学 会 了 从 像素 到 符号 的 所 有 途径 。 
































学 习 渗透 到 数目 日 益 增加 的 各 种 应 用 智能 机 器 的 每 个 层面 。 因 此 ， 这 篇 后 记 以 对 基 些 智能 
机 器 和 神经 网 络 在 建立 它们 时 的 作用 的 最 终 评 论 结束 全 书 是 适宜 的 。 园 
智能 机 器 于 全 
由 于 智能 证 的 科学 定义 疝 不 统一 并 有 篇 幅 有 限 ， 我 们 不 人 RAR 
冒险 讨论 智能 是 什么 。 相 反 ， 我 们 将 我 们 对 智能 机 器 的 简要 
解释 限制 在 三 个 具体 应 用 领域 的 背景 下 : 模式 分 类 、 控 制 和 
信和 号 处 理 。 这 里 要 认识 到 没有 “通用 的 "智能 机 器 ;相反 ， 我 仿 贡 
们 只 是 有 针对 具体 应 用 的 智能 机 响 。 
神经 网 络 的 大 部 分 研究 工作 集中 于 屋 式 分 类 。 由 于 模式 站 再 下 后 
分 类 的 实际 重要 性 和 它 的 相当 广泛 性 ， 以 及 神经 网 络 如 此 适 
于 解决 模式 分 类 任务 的 事实 ， 研 究 努 力 的 这 种 集中 确实 是 应 ] 
该 的 。 这 样 做 我 们 已 经 能 够 为 自 过 应 模式 分 类 打下 基础 。 但 克 闻 加 





是 ， 我 们 已 经 到 达 另 一 个 阶段 ， 如 果 希 望 成 功 解决 更 加 复杂 
和 困难 的 模式 分 类 问题 ， 我 们 必须 在 一 种 更 广泛 的 意义 上 思 | 。 人 更 雪 据 源 
考分 类 系统 。 图 1 描绘 “假定 的 "分 类 系统 布局 (Hammerstrom 
and Rahfuss,1992) 。 系 统 的 第 一 层 接受 由 信息 源 产 生 的 感觉 数 。 图 ! 用 于 模式 分 类 的 智能 
据 。 第 二 层 提取 刻画 感觉 数据 的 一 组 特征 。 第 三 层 将 特征 分 机器 的 功能 结构 
类 为 一 个 或 几 个 不 相同 的 类 ， 热 后 由 第 四 层 将 它 放 人 全 局 硼 景 中 。 最 后 ， 例 如 ， 对 最 终 用 户 “[ 到 | 
我 们 可 能 将 分 析 后 的 输入 放 人 某 种 数据 库 形 式 中 。 刻 画图 1 系统 的 重要 特征 包括 ; 

。 识别 ， 起 因 于 信息 从 系统 的 一 层 前 向 流动 到 下 一 层 ， 这 如 同 在 传统 的 模式 分 类 系统 
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一 样 

， 集中 ， 猎 借 系 统 较 高 层 能够 涉 择 性 地 影响 较 低 层 的 信息 处 理 ， 这 要 依稀 从 过 去 数据 
获得 的 知识 

因此 图 ] 中 显示 的 模式 分 类 系统 的 新 颖 性 企 于 目标 领域 的 知识 ， 以 及 在 给 定 有 限 信息 处 


理 能 力 的 基本 约束 下 ， 它 被 系统 较 低 层 利用 以 便 提 高 整体 系统 作 能 。 我 们 相信 使 用 神经 网 络 
的 模式 分 类 的 演化 必 将 沿 着 创建 异型 的 方向 进行 ， 这 种 模型 将 持续 受到 日 标 领域 知识 的 影 
响 。 我 们 设想 用 开 异 式 分 类 的 新 一 类 智能 忆 器 将 提供 如 下 属性 : 
” 提取 背景 知识 的 能 力 ， 并 日 通过 全 中 (focusing) 的 使 用 利用 这 种 能 力 

， 知识 的 局 部 化 珍 示 而 不 是 分 布 式 表示 
































。 希 项 结构 ， 强 调 网 络 的 模块 性 和 层次 性 作为 神经 岗 络 设计 的 原则 

这 样 一 种 智能 机 器 的 实现 只 有 依靠 组 合 神经 网 络 和 其 他 [Tc] 
合适 工具 起 有 可 能 得 到 。 这 里 想到 的 - -个 有 用 上 具 是 Vitetbi [各 入 
算法 ， 它 是 动态 规划 的 一 种 形式 ， 设 计 用 于 对 付 率 行 信息 处 于 
再”， 这 种 处 理 足 图 { 中 描述 的 系统 的 固有 特征 。( 动 态 规划 |。 管理 和 组 织 导 
算法 在 第 12 章 讨 论 :) ] 

郧 一 个 自然 适合 神经 网 络 的 应 用 领域 是 控制 ， 它 也 是 沿 
着 智能 控制 ” 的 方向 演化 。 自 治 是 控制 系统 设计 者 一 个 重大 协 沿 导 
目标 ， 而 智能 控制 器 是 达到 这 个 目标 的 - -种 方法 。 图 2 显示 于 | 
智能 自治 控制 器 的 功能 结构 ， 这 个 智能 自治 控制 器 在 涉及 感 了 














党 的 过 程 (设备 ) 一 端 有 一 个 界面 ， 而 在 人 和 其 他 系统 的 一 端 
有 另 一 个 界面 (4ntsaklis et 引 ,,1996; Passino,1996) 。 系 统 有 三 4 
个 功能 层 ， 小 缚 如 下 过程 
1, 执行 属 ， 它 具有 用 于 自 适应 控 制 和 辩 识 的 低层 信号 处 图 用 于 控制 的 智能 
理 算法 和 榨 制 算 泛 。 机 器 功能 结构 
2. 协调 早 ， 它 通过 监管 诸如 调谐 、 监 督 、 危 机 管理 和 计 
划 等 事项 提供 执行 层 和 管理 层 之 间 的 联系 。 
3. 营 理 和 组 织 属 ， 它 提供 较 低 层 的 功能 监督 和 对 人 的 界面 的 管理 
愤然 经 典 控制 是 植 根 于 线 人 性 微分 方程 组 理论 ， 智 能 控制 主要 是 基于 规则 的 ， 因 为 在 其 使 
用 中 涉及 的 相关 性 非常 复杂 以 致 不 允许 有 解析 的 表示 。 为 了 处 理 这 种 相关 人 性， 使 用 模糊 系统 
速 
据 

















数学 和 神经 网 络 是 合适 的 。 宰 糊 系统 P 的 功能 在 于 它们 的 能 力 ; (1) 量 化 语言 输 人 ，{2) 快 
给 出 复杂 的 和 通常 未 知 的 系统 输 和 人 - 输出 规则 的 工作 近似 。 神 经 网 络 的 功能 在 于 它们 从 数 
中 学 习 的 能 力 。 在 神经 网 络 和 模糊 系统 之 间 存 在 一 个 自然 的 最 佳 协同 ， 使 得 它们 的 混合 对 智 
能 控制 和 其 他 应 用 而 言 是 一 个 强 有 力 的 工具 、 

下 面 转 人 信号 处 理 ， 它 也 是 神经 网 络 另 一 个 有 丰富 永 用 的 领域 ， 这 是 因为 神经 网 络 的 非 
线性 和 自 适 应 特征 (Haykin,1996)。 对 于 在 实际 中 遇 到 的 信息 承载 信号 (例如 语音 依 号 、 雷 达 
信和 号 和 声 纳 信号 ) ， 产 生 它们 的 大 多 数 物理 现象 都 是 由 非 平 稳 和 复杂 的 非 线性 动态 系统 控制 ， 
攻 得 它们 的 精确 数学 描述 成 为 不 可 能 。 为 了 在 所 有 时 间 利 用 这 种 信号 的 所 有 信息 内 容 ， 我 们 
需要 用 于 信号 处 理 的 智能 机 器 !* 。 它 的 设计 解决 下 列 关 键 论 题 ，; 

* 非 线性 性 ， 它 使 得 提取 输 人 信和 号 的 高 阶 统计 成 为 可 能 。 











二 认 
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*。 学 习 和 自 适 应 ， 利 用 它们 系统 可 以 学 习 自 身 内 族 的 环境 的 固有 物理 机 制 和 任 连续 基 











础 上 自 适 应 环境 的 缓 民 变化。 





。 注意 机 制 ， 任 借 它 系统 通过 和 最 终 用 户 交互 或 者 以 日 组 织 的 方式 ， 能 够 集中 它 的 计 
算 能 力 针对 图 像 的 某 -- 特 别 的 点 或 空间 中 的 特定 位 置 ， 进 行 更 详细 的 分 析 呈 











3 表示 用 于 信号 处 理 的 智能 机 器 的 功能 结构 ， 它 涉及 
操作 的 3 个 层次 ， 








最 终 用 户 














1. 低层 处 理 ， 它 的 目的 是 对 收 逢 的 信号 作 预 处 理 ， 为 第 
二 层 作 谁 备 。 预 处 理 涉及 利用 滤波 削减 噪声 效果 和 其 他 高 级 





决策 层 





信号 处 理 操作 ， 如 时 频 分 析 "- 。 时 频 分 析 的 日 标 是 描述 信号 


于 





了 





的 谱 内 容 如 何 演变 以 及 理解 一 个 时 变 谱 是 什么 。 具体 地 ， 把 


学 习 和 自 适 应 尽 





收 到 信号 的 一 维 (时 间 ) 胡 示 变换 为 二 维 赂 像 ， 一 维 代表 时 间 
而 另 一 维 代表 频率 。 时 频 分 析 提 供 一 个 有 效 方法 ， 用 于 以 一 








种 远 比 原始 时 域 形式 清楚 的 方式 突出 收 到 信号 的 非 平稳 特性 。 

















2. 学 习 和 自 适 应 层 ， 其 中 记忆 (长 期 的 和 短期 的 ) 和 注意 





机 制 被 谋 人 系统 设计 中 。 例 如 ， 用 系统 所 处 环境 的 足够 大 的 
数据 集 使 多 层 感 知 器 经 历 监督 学 习 ， 环 境 的 整体 统计 信息 被 
储 存在 网 络 的 突 触 权 值 中 。 为 了 考虑 环境 随时 间 的 缓慢 统计 
变化 ， 一 个 育 自 适应 系统 ( 即 在 无 监督 方式 下 运行 的 连续 学 习 
子 系统 ) 附 加 在 多 层 感知 器 的 输出 端 。 学 习 过 程 也 包括 提供 一 








图 3 











个 注意 网 络 * ， 赁 借 它 系统 可 以 集中 它 的 注意 于 收 到 信号 的 重要 特征 ， 


“ 选 通 ”《(galing) 从 较 低 层 到 较 高 尽 之 癌 的 信息 流 实现 。 











用 于 信号 处 理 的 智能 
器 功能 结构 





这 可 以 在 需要 时 通过 


3. 决策 后 ， 其 中 系统 作出 最 终 判 决 。 判 决 可 以 是 感 兴趣 的 目标 是 否 出 更 在 收 到 的 诸如 


雷达 或 声 纳 的 信号 中 ， 或 者 在 数字 通信 中 收 到 的 信息 比特 是 否 对 应 符 
提供 置信 级 。 
我 们 并 不 主张 这 里 描述 的 系统 是 在 系统 中 智能 可 以 嵌 人 模式 分 类 














[号 1 或 0; 在 决策 中 也 


、 控 制 和 信号 处 理 的 惟 


一 方式 。 相 反 ， 它 们 代表 能 实现 这 个 重要 月 标的 系统 化 方法 。 尽 管 它们 存在 应 用 领域 的 差 
异 ， 它 们 确实 共有 一 些 共同 特征 (Yalvanis and Saridis,1992;Passino, 1996) : 


， 从 较 低层 到 较 高 层 和 相反 方向 ， 存 在 双向 信息 流 











” 较 高 层 经 常 关 心 系统 的 那些 处 理 时 间 较 慢 、 范围 较 和 横向 时 间 较 长 的 行为 . 


，。 当 我 们 从 较 低层 移 到 较 高 层 时 随 着 精度 的 降低 智能 在 升 尚 。 
” 在 较 高 层 ， 粒 度 有 所 下 降 ( 即 模型 的 抽象 性 上 升 )。 





我 们 在 第 1 章 通 过 将 人 脑 描 述 为 巨大 的 信息 处 理 机 器 开始 (人 人工) 神经 网 络 的 讨论 ， 人 脑 
是 神经 网 络 的 激励 源泉 。 以 智能 机 器 的 简短 说 明 结 束 本 节 是 合适 的 ， 智 能 机 器 是 用 人 工 手 段 





进行 信息 处 理 的 最 高 级 。 建 立 悉 能 机 器 的 努力 将 继续 于。 
注释 和 贿 考 文献 


[从 不 癌 和 角度 对 智能 进行 的 原理 性 讨论 ， 参 看 Ackeman( 1990)， 


(1992)。 


Aibus( 1991) 和 Kosko 


52] Vitedi 算法 最 初 由 Viterbi 发 展 用 于 解决 通信 理 沦 中 的 卷 积 解码 问题 。 关 于 Viterhi 算法 
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的 指导 人 性 处 理 ， 参 见 Fomey(1973)。 
关于 模式 分 类 应 用 中 涉及 卷 积 网 络 ( 在 第 4 章 描 述 ) 和 Viterbi 算法 的 联合 使 用 ， 参 见 
LeCun et al. (1997.1998) 。 

[3] 智能 控制 在 White and Sofge(1992) ，Antsaklis and Passino( 1993) ，Gupta and Sinha( 1996) 和 
Tzefestas( 1997) 等 编辑 的 书籍 中 讨论 . 

[4] 模糊 理论 出 Zadeh( 1965 ,1973) 创 立 ， 为 处 理 语言 变量 ( 即 用 和 白 然 语言 描述 的 概念 ) 提 
数学 工具 以 节 本 形式 处 理 模糊 逻辑 ， 人 参看 Dahois and Prade(1980)。 在 Kosko(1997) 
书 中 ， 采 用 一 种 不 同 的 观点 : 异 糊 系统 被 看 作 函 数 逼 近 器 。 其 中 证 明 模糊 系统 能 模拟 
任何 连续 函数 或 者 系统 ， 只 要 模糊 系统 使 用 足够 多 的 规则 。 

15] 电气 和 电子 工程 师 学 会 (Institote of 了 lectrical and Eleotronie Engineers,IEEE) 会 刊 1998 年 的 
一 期 专 败 讨论 智能 信 寻 处 理 的 主题 (Haykin and Kosko,1998)。 

[6] 于 分 层 集中 或 选择 注意 的 自 组 织 系统 在 Fukushima(1988a) 中 描述 。 系 统 是 由 
Fukushima(1975 ,1988b) 创 立 的 分 层 神经 认 知 机 的 变形 。 系 统 能 够 在 具有 多 个 字符 的 图 
像 中 集中 注意 于 单个 字符 或 者 集中 注意 于 变形 很 大 且 被 噪声 损害 的 字符 。 

次 组 织 注 意 机 制 也 具有 直 Carmpenter and Grossberg(1987, 1995) 开 创 的 自 适应 谐振 理论 
[3 (adaptive resonance theory, ART) 的 特征 .用 于 自 适应 模式 识别 的 ART 涉及 委 底 向 上 的 滤 
波 和 自 顶 向 下 的 模 极 瞻 配 的 组 合 。 

:7] 建立 在 经 典 Fourier 理论 上 的 时 频 分 析 的 许多 方面 的 细节 处 理 ， 参 看 Cohen( 1995) 的 书 
夭 。 

Wigner 分 布 为 双 线 性 /一 次 时 频 表 示 的 重要 工具 ， 关 于 Wigner 分 布 的 理论 和 应 用 ， 和 参看 
Mecklenbriuker and Hiawatsch{ 1997) 的 书籍 。 

对 于 用 尺度 而 不 用 频率 思考 的 另 - .种 和 度 ,参见 Vettedli and Koraevi6(1995) 关 于 小 波 
《wavelet) 和 子 带 编 色 的 相关 论题 的 书籍 。 

[8] 在 van de Eaar et 让 .(1997) 中 描述 用 于 选择 性 转换 视觉 注 意 的 神经 网 络 模型 。 这 个 模型 
根据 所 完成 的 任务 通过 调制 在 预 注意 阶段 的 信息 流 能 够 学 会 集中 它 的 注意 于 重要 特征 。 
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索引 中 的 页 码 为 英文 原 蔬 页码， 与 书 中 边栏 页 码 一 致 


168 作用 函数 ,激活 函数 
definition of，11 定义 
nonmonotonic，519，726，731 ” 北 单 亢 
types of，12- 15，168 - 169 ”类 型 

Activation potenlial ，see induced local field 激活 电位 ， 

参看 诱导 局 部 域 

AdaBoogt，360 see also Boosting “ 自 适 应 推举 ， 参 看 推举 
error performance，362 ”误差 性 能 
summary of algorithm，362 算法 小 结 

Adaptive filtering，118 - 120 自 适 应 恋 波 
adaptive process，120 自 适 应 过 程 
ftering process，120 ”滤波 过 程 

Adaptive _ pattern classification， experiments on，187， 

305，337，468 ” 自 适 应 模式 分 类 ， 实 验 

Adaptive prineipal components extraction 《APEX) 自 适 

应 主 分 量 提 取 
algorithm，422- 429 算法 

Adaptive resonance theoy，41，596，795 

振 理论 

Additive madel，650- 651，676 - 677 加 性 模型 

Algorithm，origin of the temn，106 算法 ， 术 诸 来 源 

一 个 信息 理论 


点 ctivation fanction，11， 


自 适应 谐 


An information-theoretie eriterion，253 
准则 
Anti-Hebbian leaming，56，423 ” 反 Hebb 学 习 
Architectural graph，18 ”结构 图 
Arificial inteligenee，34 人工 智能 
Aray antenna proceasing，ICA for，513 ”阵列 天 线 处 
理 ， 利 用 ICA 
Associative Caussian mixture model，366 ”联想 Gauss 混 
合 模型 
mixhure of experts (ME) model，368 ”混合 专家 模型 
pmbabilistic generative model，367 ”概率 产生 模型 
Asymptotic stability theorem，406 ”渐进 稳定 定理 
上 Attentional neurocomputing，74，?793，795 ”注意 性 神 
经 计算 
Attractors，674 吸引 子 


basic of attraction，675 ” 豚 引 的 基础 

fxed-point，675 ”固定 点 ， 不 动 点 

hyperbolic，675，774” 汉 曲 的 

manipulation of，680 ”操作 

strange，709 - 722 奇异 
Automata，fimite-state，747 和 白 动 机 ， 有 限 状 态 
Autoregressive model，31，471 自 回 归 模型 
Araon，7 轴 突 


Backgammon，630 十 五 子 棋 
Backprop，see Back-propagation algorithm 
参看 反 向 传播 算法 
Back-pmopagation algorithm，161 - 175 ” 反 向 传播 算法 

accelerated convergence，233 - 234 加速 收 伍 

bateh mode，172 ”集中 方式 

computational eficiency，229 - 230 ”计算 效率 

convergenece，231 ”收敛 

delta mle，166 delta 规则 

Seneralized delta mle，170 ”广义 的 delta 规则 

hearistics，178 - 184 ”启发 式 

initialization，182 官 始 化 

leaming rale，169 - 171 “学习 速度 

local grmadient，163 ”局 部 梯度 

local minima，231 ”局 部 极 小 

momentum，170 ”动量 

output rmTresentation and decision mle，184 - 187 ”给 

出 表示 和 判决 规则 

acaling，232 规模， 尺度 

sensitivity，230 “灵敏度 

sequential mode，171 - 172 ” 串 行 方式 

stopping criteria，173 ”停止 准则 

summary，173 - 175 ”小结 

temporal，652 - 658 时序 的 

Yitues and limitations，226- 233 ”优点 和 局 限 
Back-propagntion throu 引 time，751- 756 ”通过 时 间 的 
反 向 传播 

computational complexity，771 


到 向 传播 ， 


计算 复杂 性 





624 


沉 邢 





epochwise，752 - 754 按 信 和 叶 发 午时 间 
ordened derivative，755 - 756 ”有 序 导 数 
Practical considerutions，755 - 756 ”实际 考虑 
tnncnted，754 一 755 截断 
Banlow's hypothesis、504 Batlow 假设 
Baycs classifier，143 - 148 ”Bayes 分 类 器 
Bayea risk，143 ”Bayes 风险 
Bemoulli variahbles，581 ”Bemouli 变量 
Biaafvariance dlemma， 叶 7 偏 冒 /方差 困境 
approximation ermr， 吕 ”逼近 误 郑 
estimation enrm，88” 佑 计 误差 
Biomedical recorjs、ICaA for，513 生物 医学 纪录 , 利 
刘 ICA 
Bis，486 ”比特 
Blind deeonvolution，534 ” 言 反 卷 积 
Blind signal (source) separation、72，512 ” 言 信 号 ( 源 ) 
分 离 
Botzmann dishibution，sce Gibbs 由 stribution 
分 布 ， 参 看 Cibba 分 布 
Boltmmann machine，562 - 569 Boltznano 机 
detemministic，578 - 579 ”确定 性 
leaming mule far， 印 -61，566- 568 学 习 规则 
Boosting，、357 387 ”推举 
AdaBoost，360 ” 自 适 应 推举 
fntering method，357 ”滤波 方法 
reweighting method，357 ”重新 加 权 方 法 
subsampling method，357 ” 子 采 样 方法 
Bounded，one-sided saturated fonetion，749 有 界 . 单 
边 乞 和 函数 
Brin. 6 脑 
stmruetural organization of levela，9 结构 组 织 的 分 层 
Brain-state-in-a-box (BSB) model，703 - 709 人 龟 中 脑 
chustering，?07- 709 聚 类 
dynamics of，706- 707 动态 的 
Japumnov function of，705- 706 ITyapunor 函数 
netwerk of petwortks，722 网络 的 网 
Broyden-EFleteher Glodfarh Shanno algorithm，244 
Broyder- Fletcher-Ciodfarh Shanno 算法 


Bohzmammn 


Cascade-comrelstion leaming，250 ”级 联 由 关 学 习 
Cauchy-Schwarz inequality，140 ”Cauchy-Schwarz 不 等 
式 


Cerehral corex，cytoarchitectural map、10 “大脑 皮 质 ， 
细胞 结构 图 
Chas。709- 722 混沌 

correlation dimenaion，713 ”相关 维 

definition of，714 定义 

TIyapunov exponents，713 - 714 。Lyapunoy 指数 

中 namic reconstruetion of，174 -718 动态 重 构 
Chemog bound，193 ”Cheroi 界 
ChurohrTuring bypothesis，748 “Churcbh-Turing 假说 
Classificalion and regression tree (CART)，374 ”分 类 和 
回归 树 
Cocktail pary phenomenon，72，109、534 ”鸡尾酒 会 
现象 


Cohen-Grossberg theorem，701 - 703，705 Cobem- 
Garossbeg 定理 
Combinatorial optimization，560 组合 最 优化 

analogy with statistical physics，S61 ”与 统计 物理 学 


类 比 
Committee maehine，351 ”委员 会 机 器 
Combetitive learning，56，294，448 竞 委 学 习 
mle for，59 规则 
Computational complexity ，104，292 ”计算 复杂 性 
emponential time algorthm，347 ”指数 时 间 算 法 
polynomial time algorithm，347 “多项式 时 间 算 法 
Condition number，132 ”条 件数 
Conjugate-direction methbog、238 ” 苍 方向 方法 
Conjagate-gradient method，236 - 242 ” 共 辑 梯度 方法 
Brents method，242 ”Brent 方法 
comparison with Quasi-Newton's melthod，244 - 245 
和 拟 牛顿 方法 比较 
了 leteher Reeves formila，239 letcher Reeves 公式 
Jine search，240- 242 ” 线 搜索 
Polak-Ribilre fomnula，239 Polak-Ribiere 公 趟 
residual、239 ” 余 量 
aummary of、243 小结 
Connectionism，226 - 227 ”连接 机 制 
Content-addressable memory ，see Hopfield model 
容 寻 址 存储 器 ， 参 看 Hopfield 模型 
Contextual maps，474 上下文 映 射 
Contimoua leaming，83，750 ”持续 学 习 
Convergence ip probability，91 依 概 率 收 伍 
Convolution networdks，29，245 - 247 ” 卷 积 网 络 
Coreiation coefficient，473，507 ”相关 系数 


按 内 
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Corelation matrix，127，397 ”人 关 矩阵 划算 法 
Correlation matrix memory，79 - 83 ”人 关 和 抢 阵 记忆 GaussrSeidel method，631 ”Gauss-Seidel 方法 


Telation lo LMS algorithm ，153 和 LMS 算法 的 关系 
Cortieal (computational) map，9，444，477 皮质 ( 计 
算 ) 映射 一 
Cover's theorem on the separabitty of patterms，257 - 261 
模式 分 离 的 Cover 定 理 
Credirassignment problem，62，164，603 ”信任 赋值 
问题 
(Cross-correlation vector，128 ”交叉 相关 向量 
Cross-validaliou，213- 218 ”交叉 确认 

eary stoppintg method，245- 217 早期 停止 方法 

gcnenalized，288 推广 

Jeave-one-out method，218 ” 留 一 方法 

model selection，214 - 215 ”模型 选择 

multifold cross-validation，217 ~ 218 ”多 重 交叉 确认 
Cumulant，516 累积 量 
Curse of dimensionabiitg，211 - 212，291 - 292，617 
维 数 灾 
Darwinian selective learning，106 ”Darwin 选择 学 习 
Danaois'theorem，543 Damois 定理 
Davidon-FletcherPowell algorithm，244 Davidon- 
Fletcher-Powell 算法 
Delia-bardelia leaming，251，253 增 - 增 县 学 习 
Dendrate，7 树 突 
Deterministie mnneajing，586 - 992 ”确定 性 退火 

analogy with EM algorithnm，592 ”与 EM 算法 类 比 

clustering，586 - 591 ” 聚 类 

五 dden Markov modet，596 ” 隆 Mardov 异型 

pattern classifcation，596 ”模式 分 类 

regression，596 ”回归 

Yector quantization，596 ”向量 量化 
Differeniial entroppy，488 ”微分 业 
Diferentiation with reapect to a vector。150 - 151 
于 向 量 的 微分 
Dimensionally reduction，401 ” 维 数 左 缩 
Dot pmoduct，see Inner produet， 点 积 ， 参 看 内 积 
Dynamic bmgramming，603 ”动态 规划 

asynchronous，631 ”异步 

Belmans optimlity equatio，609 - 610 Belman 最 

优 方 程 

dynamic programming aigorithm，608 - 609 ”动态 规 


相对 


principle of optimality，607 - 608 ”最 优 性 原则 
Bynamic reconatruction，?714 - 718 ”动态 重 构 
embedding delay，715 ”内 好 延迟 
method of 划 se nearest neighbor，716 ， 假 最 近邻 方法 
recursive predietion，716- 737 ”递归 预测 
Takenstheorem，715 Takens 定理 
Dynamicai systems，666 - 669 动态 系统 
definition of，666 定义 
Lipshie conditon，668 - 669 Lipahiz 条 件 
stale (Dhase) Portait，667 ”状态 (位 相 ) 相 图 
state space，666 - 668 ”状态 空间 
einsensitive joss function，339 - 340 
数 
Feho_locating bat，1，33 ”回声 定位 凡 蝠 
Edgeworth expansion，540 边界 值 扩展 
Eigervalue，398 特征 值 
Eigeralue pmoblem，398 ”特征 值 问题 
iservector，398 ”特征 向 量 
domrinant，403 支配 
Empirical risk funcetional，91 经验 风险 泛 邱 
stict consistency，92 ”严格 相 容 
Jpirical risk minimization，principle of， 色 ”经 验 风 险 
最 小 化 ， 原 理 
了 Ensemble averaging method of lcaming，353，387 学习 
的 总 体 平均 方法 
Entropy, in inftomation-theoretic senee，487 炳 ,在 信 
息 论 意义 于 
Entropy，in thermodynamica sense，548 ” 箭 ， 在 热力 学 
意义 下 
Equivariant property，520 - 521 等 价 性 质 
Emor hack-propagalion algorithm，asee Back-propagation 
误差 反 向 传播 算法 ， 参 看 反 向 转播 
误差 修正 (校正 ) 学 习 


s 不 敏感 损失 函 


rror-eorection leaming，51 
Eror energy，52 ”误差 能 量 
Frror-peronmance surface，63 误差 性 能 曲面 
Eucjidean distance，26 ”Euclid 距离 
Eualeriagrange equation，270 - 27L 
程 

Excitatorm-inhibiton。 network。 see Gradient 。 descent- 
Badient ascent dynamics ”兴奋 - 抑制 网 络 ， 参 看 梯度 


Piler-lagrange 方 
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下 降 - 梯度 上 升 动 力学 
xpectationmaximization ( EM) algorithm，381 - 382 
期 望 最 大 化 (EM) 算 法 


applied te HMR model，383 ”应 用 于 HME 模 地 


Factorial distibution，496，581， 析 因 分 布 
Feature space，199，258，329 ”特征 空间 
Eeedback ，!4，18 反馈 
Blobal，664 全 局 
local，664.， 785 ”局 部 
Feedforward network，21，156，256 ”前 馈 网 络 
fally-connected， 和 2 ”全 连接 
mmltilayer，21 多 层 
parially-econnected，22 ”部 分 连接 
single-layer，21 ” 单 层 
Tinancial market data analysis，ICA for，513 ”金融 市 场 
数据 分 析 ， 利 用 ICA 
Tinite duration impulse response faier，648 ”有 限时 间 
训 击 响应 泪 波 器 
Fishers informalion matrix，388 Fisher 信息 矩阵 
Fishers linear 由 seriminant ，201 - 202 ”Fisher 线性 判别 
Fletehen-Reeves formula，239 ”Fletchen-Reeves 公式 
rechet diferential，268 - 270 ”Frchet 微分 
ree energy，547 ”自由 能 量 
Fuzy system，793 ”模糊 系统 
Gamma memorr，639 - 640 ”Ganma 记忆 
Gausa Newton ”method， see ”Optimization technique 
Gauss Newton 方法 ， 参 看 最 优化 技术 
unconstrained ” 碍 约 束 
Ceneralization，2，25，205 - 208 活化 ， 推 广 
taining set size for，208 ”训练 集 大 小 
Generalized crossvalidation，287 - 289 ”广义 交叉 确认 
Ceneralized Hebbian algorithm (CHA)，414 ”广义 Hebb 
算法 (GHA) 
eonvergenee，416 ” 收 伍 
optimality of，417 “最 优 性 
summary，418 “小结 
Ceneralized Lioyd algonthm，456 广义 Lloyd 算法 
Generalized sidelobe canceler，74 “广义 旁 名 消除 器 
Gibbs distribution，547，594，599 。”Gibbs 分 布 
Gibhs sampling ，561 - 562 。Gibhs 抽样 
convergence theorem，562 ，” 收 伍 定 理 
ergodic theorem，562 ” 移 历 定理 





rate of convergence theorem，562 ”收敛 速度 定理 
Global minima，definition，249 ”全 局 最 小 ,定义 
Gradient desceant-gradient ascent d 由 namics，724 ”梯度 
下 降 - 习 度 上 乔 动 力学 
Gram Chanier expansion，515，537 - 540 
Chanlier 展开 
Green's fonction，271 ”Green 函数 
Green's identity ，270 Creen 恒等式 
Greenrs matrix，274 ”Green 矩阵 
Growth funetion，4 生长 嚼 数 


H。 criterion，151，230 了 。 准则 
Heaviside function，see Threshold function 
煞 ， 参 看 阔 值 函数 
Hebbian leaming，S5 Hebb 学 习 
covarianoe jgpothesig，57 ” 协 方 差 假 设 
generalized， 为 广义 的 
Hebb's postulate，57，394 ”Hebh 假设 
synaptic enhancement，56 ” 突 触 增强 
Hebbian synapse，55 ”Hebb 突 触 
ant-Hehbian，56 反 Hebb 
properties of，55 ”性 质 
Helmholz machine， ”574- 575 ”Hetmhoiz 机 器 
Hessian matrix，124，204 ”Hessian 失 阵 
computation of invere，224- 225 ” 道 的 计算 
Hesteness Stiefel formula，254 ”Hesteness- Stiefsl 公式 
Hidden Markov moedels，596，643 ” 隐 Markov 模 过 
Hidden neumn，21，157 ”隐藏 神经 元 
Hierarchical clustering，438 ”分 层 宗 类 
了 Hierarchical mixture of experla (HME) model，372 分 
层 混合 专家 (HME) 模 型 
jeaming stratpgies for，380 “学习 策略 
Hierarchical veetor quantization，470 ”分 层 向 量 量化 
Hilher space，269，309 ”Hilhere 空间 
Hepfeld model (netwod )，680 - 696 ” Hopeld 模型 
(网 络 ) 
energy function，682 ”能 基 函 数 
energy landscape，686 能 量 地 形 图 
fndamental memory (biotobype state)，687 ”基本 记 
忆 ( 原 型 状态 ) 
mixture statle，701 ”混合 状态 
leaming mule for，690 学习 规 则 
load parameter，694 ”装载 参数 


Cramr- 


Heaviside 函 
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回 湖 阶 段 
反 转 基本 记 


Tetrieval (mecall) phase，689 -690 
reverse fundamental memory，699 - 701 
忆 
sienal-tonoise matio、694 ” 信 虽 比 
spim-glass state，701 ”旋转 玻璃 体 状态 
spurious states，692 - 693 ”以 状态 
stormage capacity，693 - 696 ”存储 容量 
storage phase of learming ，688 - 689 ”学 习 的 存储 阶 
恰 
Hoteiling's deftlation technique，416 Hotelling 压缩 技术 
Hybrid system，37，793 ”混合 系统 
Hyperholic tangent funetion as activation fanetion，13， 
169 激活 函数 为 双 曲 正切 本 数 
Identity map，see Replicator 便 等 映射 ， 参 看 复制 器 
Jmage coding，419 图像 编码 
Independent components analysis，510 - 525 ”独立 分 芋 
分 析 
activation fanetion for，517 - 519 ”激活 函数 
convergence considerations of learning algorithm，523 
学 习 算法 的 收敛 性 考虑 
equivaxiant pmpery，520- 521 ”等 变化 的 性 质 
leaming algorithm for，519 - 520 学习 算法 
natural gmadient for，321 自然 梯度 
perfomnanes index for，525 ”性 能 指标 
stability of leaming algotithm，521 - 522 ”学 习 算 法 
的 稳定 性 
Induced local field，definition，11 
Intimum，91 下 确 界 
Influence matrixz，286 ”影响 矩阵 
Jnfonmation preaervation mle，373 ”信息 保持 规则 
Jnformatiortheoretic models of neurai netwods，484 ”和 神 
经 网 络 信息 理论 模型 
Jnformon，3537 
Inner product，26 ”内 积 
Jnnerproduct kermelt，330，433 ”内 积 核 
Inner produet space，310 ”内 积 空间 
Integrate-and-fire netron，725- 726 ”集中 点 火 神 经 元 
ntelligent machines，790- 794 智能 机 器 
fo contol，792- 793 用 于 控制 
for pattem recognition，791 - 792 ”用 于 模式 识别 
for signal processing 。793 - 794 ”用 于 信和 号 处 理 
Interpalation theorem，262 - 264 ”插值 定理 


诱导 局 部 域 ， 定 义 


interpolation matrix，264 ”插值 矩阵 
Inverse problem，265 ” 逆 问 题 
conditions for well-posedness，266 ” 适 定 条 件 
Tteratively reweighted least-saquare，389 ” 送 代 重 加 权 最 
小 平方 
Jacobian matrix，125，204，670 Jacobi 年 阵 
eomputation of，202- 204 计算 
Jensen's inequaliyg，391 Jensen 不 等 式 
Kalman filter，151，762 - 365 Kalman 滤波 器 
copversion factor，765 ”转换 因子 
由 vergenee phenomenon，365 ”发 散 现象 
emorcovariance matriz，764 ”误差 协 方差 矩阵 
filtered eatimation enor，365 ”让 后 估计 误差 
innovation，763 更 新 
square root，763 平方 根 
summary，764 小 结 
Kalman flhter，decoupled exiended，765 - 770。 Kalman 滤 
波 器 ， 解 粳 扩 展 
artifieial process noise，769 ”人 工 过 程 噪声 
computational complexity，770 - 771 计算 复杂 性 
multistream，788 ”多 流 
summary，769 - 770 “小结 
Karhunen- Tosve transform， sce Piincipal ceomponenis 
analysis ”Kartunen-Lokve 变换 ， 参 看 主 分 其 分 析 
Kemel matrix，433 ” 核 矩 阵 
Kemel principai components analysis，432 ， 核 主 分 量 分 
析 
summary，435 小结 
Knowledge，definition，23 知识， 定义 
Kullhack-Leibler divergence 《distance) ，487，495 - 497 
Kolback-Leibler 散 度 ( 距 离 ) 
Pythagorean decomposition，497 Pythagnras 分 解 
relation to mutual infommation，496 ”与 互信 息 的 关系 


Iateral inhibition，59 ” 侧 向 抑制 
Leaming，25 学习 

defnition，50 定义 

statistical theor'，84 ”统计 理论 
Leaming task，66 ”学习 任 务 

beamfomming ，73， 波 东 形成 

cortml，70 ”控制 

filtering。71 湾 波 

fometion approximatiomn，68 ” 郴 数 逼近 
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pattem aasociation，66 ”模式 联想 
Pattem recognition，67 ”模式 识别 
Learmning vector quantization，467 “学习 向 量 量化 
Leaming with a tearher。6 有 教师 学 习 
Leaming without a teacher，64 无 救 师 学 习 
Leastmeanrsquare (LIMS) algorithm，128 - 135 ”最 小 
均 方 算法 
convergence，130~ 132 ”收敛 
MSNewton algorithm，153 “LMS-Newton 算法 
leaming cure，133 - 134 ”学 习 曲 线 
leaming-mate annealing，134- 135 学 习 率 退火 
misadjustment，333” 误 调整 
nomalized LMS algorithm。152 ”正规 化 的 LMS 算法 
Teastsquares fiter，linear，126 - 128 ”最 小 二 乘 潍 波 
Tikelihood ratio，145，188 ”他 然 比 
log-likefihood ratio，146 ”对 数 似 然 比 
Jikelihood ratio test，145 ” 似 然 比 测试 
Line search，240 - 242 ”直线 搜索 
Linear separability，138 ”线性 可 分 性 
Jinskers model of mammalian visual system，395 
Linsker 的 吊 乳 动物 视觉 系统 模型 
Jitle model，726 ”小 模 击 
Iocal minima，definition，249 局 部 最 小 ,定义 
Iogistic function，14，45，168 ”Logistic 函数 
Iong-tem Potentiation (LIP) ，107 ”长 期 电位 (LTP) 
yapunov's theorems，673 - 674 。Lyapunoy 定理 
Lyapunov funetion，674 。Lyapunov 函数 
Mahalanobis distance，27 ”Mahalanobis 离 
Marginal entopy，497 边缘 箭 
Markor blanket，583 ”Marjov 层 
Markov chaing，548 - 556 ”Markov 链 
Chapman-Kolmogorov idenlity，550 “Chapman 
Kolmogorov 恒等式 
alassification，555 ”分 类 
defimition，548 定义 
ergodic，551 广 历 
ergodicity theorem，552 ” 痪 历 性 定理 
imeducible，550- 551 不 可 约 
principle of detailed balance，555 - 556 ”细节 平衡 原 
由 
recument propery，550 ”递归 性 质 


state-transiion diagrant，553 ”状态 转移 疼 
stochastie matrix，549 ”随机 算 阵 
transition pmbability，549 ”转移 概率 
Markovian decision processes，604 - 606 ”Markov 快 策 
过 程 
Matrix inversion lemma，225 ”矩阵 求 赣 引 理 
Maximum a posteriori (MAP) estimation，389 ”最 大 后 
验 (MAD) 估 计 
Maximurm eigenfilter。Hebbian based，404 ”最 大 特征 
滤波 器 ， 基 于 Hehb 的 
atabilty，408 ”稳定 
Marimum entmopy method for blind source separation，3529 
-533 ”用 于 育 源 分 离 的 最 大 坑 方 法 
equivalence with maximum likelihood ，531 
大 位 然 
learning algorithm。532 - 533 ”学 习 算 法 
Maximum entropy (Max Ent) principle，490 ”最 大 录 原 
理 
Maximum likelihood estimation，378 最 大 似 然 估计 
Jog-likefihood fanctuu，379 ”对 数 做 然 函数 
propery，388 性质 
Maximum likelihood estimmation for blind souree separation 
525- 528 用 于 言 源 分 离 的 最 大 似 然 估 计 
relationahip with indepcndent components amalysis，527 
- 528 ”和 独立 分 量 分 析 的 关系 
Maximnum mutual infommation (Jnfomar) principle，484, 
499- 303 最 大 互信 息 原则 
model for pereeptual syetem，3504- 505 ”感知 系统 模型 
ielation to redundarey reduetion，503 - $05 “与 宛 余 
创 减 的 关系 
MecCulloch Pits model，14，38，135 
模型 
Mean-field theory，576 - 578 ”平均 场 理 论 
Memor,， 75 记忆 
asaociative，67 ”联想 
comelation matrix，79 -83 ”相关 矩阵 
crosstalk，81 。 串 音 
distriputed，25 分 布 式 
ong-temn，35 ”长 期 
recal，80 回忆 
shortrtem，75 短期 
Memory，shortr-temm stmueture、636 - 640 ”记忆 ,短期 
结构 
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memory depth，638 。 志 忆 深度 
memory resalution，638 ”记忆 分 辩 率 
Memor-based leaming，53 ”基于 记忆 的 学 习 
k-oearest neighbor mle，54i 最 近邻 规则 
nearest neighbor mle，54 ”最 近邻 规则 
Wereers theorem，331 。 Wereer 定理 
Nethod of Tagrange muliptier，223，323，490 
Lagrange 乘 子 法 
dual pmblem，323，328，342 对偶 问题 
daalib theorem，324 对偶 性 定理 
Kuhn-Tucker eondition，323 ”Kubr-Tucker 条 件 
primal pruhlem，323，328，342，” 原 问题 
Methog of steepest descent，asee Optimization technique， 
unconstraioed 最速 下 降 法 ， 参 看 最 优化 技术 ， 无 约 
柬 
Metropolis algorithm，556 - 558 ”Metropolis 算法 
Michelli's 由 ecorem，264 - 265 ”Michelli 定理 
NMiniroum description length 【MDL) eriterion，253 最 小 
描述 长 度 准则 
NMinimum nomm solution，see Pseudoinvere ”最 小 范 数 
解 ， 参 看 伪 送 
Minor camponenis amalysis (MCA)，440 次 分 量 分 析 
《MCA) 
Mixture of expers (ME) model，368 
模型 
Model-reference adaptive contoi，780 - 782 ”参考 模型 
自 适 应 控制 
Modularitr ，definition，352 ”组件 性 ， 定 义 
Monomial，259 ”单项 式 
Multilayer perceptron，156 ”多 层 感 知 器 
bounds on apprmoximation error，209 -- 211 
的 界 
featme deteeton，! 史 ，227 特征 检测 
feahare shace，199 ”特征 空间 
recurrent，736- 737 ”递归 
NMhltinomia] probability，369 ”多 元 正 态 概率 
Mnlivariate Gaussian functions ( distribution) ，275，297， 
492 ”多 元 Gauss 函数 (分 布 ) 
Mutnal infommation，492 ”互信 息 
for self-organized jeaming，498 ”用 于 自 组 织 学 习 
prmoperty，493 ”性 质 
NP-eomplete problem，347 ”NP 完全 问题 


混合 专家 (ME) 


下 近 误差 


Nadarayt 而 alson Tcgression estimator， 296， 479 
Nadaraya-Watson 回归 估计 器 
Natural gradient，521，540 自然 梯度 
Nat，486 奈 特 
Neocogniton，108，251，795 ”神经 认 知 机 
NETialk，6541 -642 
Network pmuniog techaique，218 - 226 ”了 网 络 修 前 技术 
approximate smoother，221 - 222，” 台 近 光滑 器 
complexity regxliarization，219 - 222 ”复杂 性 正则 化 
optimal brain damage，222 最 优 肪 损伤 
oblimal brain surgeon，222 - 226 ”最 优 脑 外 科 
weight decay，220” 权 值 衰减 
weight elimination，220 权 值 避 除 
Neural network， 神 经 网 络 
adaptivity，3 ” 自 适 应 性 
architecture，21 ”结构 
definition，2。17 定义 
fanlt-tolerance，4 ”容错 
input-output mapping，3 输入 -输出 映射 
invariances huilt into，29 ”其 人 不 变性 
Deurobiological analogy，4 ”神经 后 物 类 比 
propery，2 ”性质 
Neurodynanie pmgramsing，603 - 634 ”神经 动态 规划 
finite-horizon problem，606 有限 范 围 问题 
infinitehorizon problems，606 无 限 范围 问题 
Poliey，[06 策略 
relation to reirdorcement learring，603 
习 
Neuron，7 神经 元 
models of，10，15 ”模型 
Neuronal flteras 神经 滤波 器 
distrihuted，648 分布 式 
focused，644 ”集中 式 
Keuromomhie syatems，5 ”神经 形态 系统 
Newtor's method，235 Newtor 方法 
NeymanrPearson eriterion，28 ”Neyman-Pearson 准则 
Nonlinear prineipal eomponenta analysis，434，440 非 
线性 主 分 基 分 析 
Normed space，267，309 ” 赋 范 空间 
Occam's mazor，206，363 Decam 章 刀 
Optimal brain surgeon algoritum，226 ”最 优 脑 外 科 算 法 
Optimal hyperplane，320 ”最 优 超 平面 
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quadratic method for computing，322 - 325，326 计 
算 的 二 次 方法 
statistical property，325 ”统计 性 质 
Optimization teehnique 。unconstrained，121- 126 ”最 优 
化 技术 ， 无 约束 
Gause- Newton method，124 - 126 ”Gauss-Newton 方 
法 
method of steepest descent，121- 122 ”最 速 下 降 方 
法 
Newton's melhod，122 - 124 ”Newton 方法 
qzasi-Newion melhod，242 ” 拟 Newton 方法 
Ordered derivative，755 有 序 导数 
Orthogonal similarity ransfommation，399 ” 正 交 相 似 变 
换 
Outer product mle，see Hebbian leaming 外 积 规 则 ， 
参看 Hebb 学 习 
Partition function，547 ”前 分 函数 
Pereeptron，135 - 143 ”感知 器 
mlation to Bayes classiter，143 - 148 “与 Bayes 分 类 
器 的 关系 
Perceptron cormergence algorithm (theorem)，141 感知 
器 收敛 算法 (定理 ) 
summarr，142 小结 
Piecewise-linear funetion，14，703 ”分 段 线 性 函数 
了 lasticiyg，1 可 塑性 
了 olak-Ribitre formula，239 ”Polak-Ribiere 公式 
Policy，606 策略 
Poficy iteration，610 - 612 策略 选 代 
approximate，619 - 622 ” 通 近 
了 ositive definite matrix ， definition，131 
义 
Predictim，72，645，771 ”预测 
Principal components definition，400 ” 主 分 量 定义 
Principal components analysis，396 ” 主 分 量 分 析 
adaptive method，431 自 适 应 方法 
batch methods，431 ”集中 式 方法 
decorrelating algorithm，430 ”去 相关 算法 
eigensiructure，397 ”特征 结构 
nonlinear，434，440， 非 线 作 
principai subspace，430 ”主子 空间 
reestimation algorithm，430” 重 估计 算法 
PHincipal curve (suface] ，440，461 ” 主 曲 线 (曲面 ) 


正定 矩阵 ， 定 


Principle of detaiied balance，3555 - 556 ” 绍 节 平衡 原则 
Principle af minimal free energy，548 最 小 自由 能 基 原 
则 
Friociple of minimum redundancy，504 ”最 小 元 余 原 则 
Prineiple of orhogonaliy，85，402 ” 正 交 性 库 则 
Principle of topographic map formatiomn，445 ”拓扑 映射 
形成 原则 
Prohbably approximately comect (PAC) model，102 - 105， 
357 可 能 近似 正确 (PAC) 模 型 
Piobability of cormrect classiftcation，191 ”正确 分 类 概率 
Probability of error (misclassifieation) ，191] ”误差 ( 错 
分 ) 慨 率 
uning，see Network pruning tecimnique 修剪， 人 参看 网 
络 修剪 技术 
Pseudo differential operator，276 ”人 擅 微 分 算 子 
Paeudoinverse，127，284 ”食道 
了 Pseudotempermture，15，547 ”人 擅 温 度 
Qiactor，610-611 人 必 因 子 
QIleaming，622 - 627，631 -632 人 Q 学 习 
approximate，624 - 625 ”逼近 
convergence theorem。623 ”收敛 定理 
exploration，625 - 627 ”探索 
Quadratic programming，345 二 次 规划 
cotmmercial jibrary，348 ”商用 库 
Quasi-Newton method，242 ” 拟 -Newton 方法 
了 Radial basis function，264 ” 径 向 基 函 数 
Caussian，264，275，297 ”Causs 的 
inmverse multiquadric，264 逆 需 二 次 
muliquadric，264 ”多 二 次 
Radial basis-funetion (RBF) network，256 ” 径 向 基 函 数 
(RBF 网 络 
abpzroximation property ，290 ~- 293 ”逼近 性 质 
oomaparison with multilayer perceptron，293 ”和 多 层 
感知 器 比较 
comtputational compjexity，292 ”计算 复杂 人 性 
Benemalized，28 -280 广义 的 
leaming sbategy，298 - 305 “学习 策略 
nomalized，296 ” 归 -- 化 的 
Telation lo kemel regression，294 ”与 核 回 归 的 关系 
sampje compiexity，292 尽 本 复杂 性 
Random wak，597 ”随机 渡 游 
Real-time recumrent leaming，756 - 762 ”实时 递归 学 习 
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computational complexity，771 计算 复杂 性 


sensitivity graph，761 ”敏感 网 
summary，760 小 结 
teacher forcing，762，3787 ”教师 强迫 
Receptive field，28，45，87 ，282 ”接受 域 
Recument (neurl) networkk，18，23，677 - 678 ”递归 
(神经 ) 网 络 
Recurent network ，dynamically driven，3732 - 789 ” 递 
归 网 络 ， 动 
eomputational power。747 - 749 ”计算 能 力 
ceantmollahility and observability，741- 742 ”可 控制 性 
和 可 观察 性 
heuristics，351 启发 式 
inputoutput model，733 - 735 ”输入 输出 模型 
learming algorithm，750 - 751 ”学 习 算 法 
loeal conhollabititr，743 - 744 ”局 部 可 控制 性 
local feedback，7386 ”局 部 反馈 
local obaervabilityg，744 - ?346 ”局 部 可 观察 性 
netwoark amhitecture，733 - 739 网络 结 构 
nonlinear autoregressive with exogenous input，746 一 
747 具有 外 部 输入 的 非 线性 自 回归 
recurrent mmultilayer perceptoo ，736 - 737 ”递归 多 层 
感知 器 
second-orjer model，737 - 739 二 阶 模型 
state-space model，735 - 736。739 - 746 ”状态 空间 
模型 
vanmishing gradients，773 - 776 ”消失 梯度 
Reeursive leastsqmuare (RLS) algorithm，151 
平方 (RLS) 算 法 
Redundaney，394，503 ” 宛 余 
measure for，505 ”度量 
Regression， 回 归 
kemel，294- 298 核 
nonlinear，85，285 ” 非 线性 
ridge，311 岭 
Regreasion surface，371 





递归 最 小 


回归 曲面 
Regularization network，277 - 278 ”正则 化 网 络 
Regnlarization theory，219，267 ”正则 化 理论 
applied lo dymamic reconstruetion，?18 ”应 用 于 动态 
重 构 
IEgularization harameter，268，284 - 290 ”正则 化 参 
数 


Reinforcement learming，64 -66，603，631 ”增强 式 学 


习 
Relative cntmpy，see Kullback Leibler divergence ”相对 
箭 ， 参 看 Kullhack-Leibier 散 度 
Relative gradient，see Natural gradient ”相对 梯 庆 ， 参 
看 自然 梯度 
Replicator，227 - 229，250 一 251 
Retina，5 视网膜 
Reimannian space，540 ”Reimann 空间 
Riesz representation theorem，269 ”Riesz 表示 定理 
haobusiness，151，230 ”得 棒 性 ， 健 壮 性 
Rosenblatts peroeptron，see Pereeptron ”Rosenblat 感知 
器 ， 贿 看 感知 器 
Saddle point，670 ”鞍点 
Saliency，223 ”显著 性 
Sample complexity，104 ”样本 复杂 性 
Sauer's Jemma，99，110 ”Saner 引 理 
Schlafli's theorem，309 ”Sehiafi 定理 
Search-thcn-conycrgence learning schedule，135 ”搜索 后 
收敛 学 习 调度 
SeclForganization，65，393 自 组 织 
principle of，393 ”原则 
Self organizing map (Kohenen's modely，446 ”让 组 织 映 
射 (Kahenen 模型 ) 
hatch version，459 ”集中 式 
competitive proceass，448，478 ”竞争 过 程 
conacience algorithmn，481 ”知觉 算法 
comvergenee phase，453 ” 收 盆 阶段 
eooperative process，449 ”合作 过 程 
denaity matching，460 ”密度 匹配 
Hteiehborhood fanction。450 ”领域 函数 
ordering phaae，452 ”排序 阶段 
pmpery，454 性 质 
renonormalized algorithm，450，483 ” 重 正规 化 算法 
summary ，453 “小结 
synaptic adaptation，451 ，478 ” 突 触 适应 
topoiogical ordering，459 ”拓扑 序 
Semantie maps，see Contextual maps 语义 映射 ， 参 看 
1 下 文 映射 
Sensitivir，203，230 三 感 
Shape-from-shading，438 ”阴影 成 像 
Sigmoid bejief network，569 -574 sigmaoid 信 度 网 络 
deterministie，379 - 586 ”确定 性 
Jeaming mle，571 - 573 ”学 习 规 则 
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mean-field distribution，580 ”平均 场 分 布 
mean-field equatiom，583 ”平均 场 方程 
Sigmoid fanction，14 sigmnoid 函数 
Signal-flow graph，15 ”信号 流 图 

basic mle，16 ”基本 规则 
Singular value decomposition ，431 
singular value，431 ”奇异 值 
singular vector，431 ”奇异 向 量 
Simulated annealng，558 - 560 ”模拟 退火 
anmealing schedule，559 - 560 ”退火 进度 
combinatorial optimipation。560…- 561 组 合 优化 
Silack variable，326，341 ”松弛 变量 
Smoothing，72 光滑 
Smoothness，measure of，310 ”光滑 性 ， 度 量 
Spalially coherent feature，506 - 308 ”空间 相干 特征 
Spatially incoherent feature，508 - 510 ”空间 非 相 干 特 
征 
Spectral theorem，399 ” 谱 定理 
Spectroemmn，642 谱 图 
Spline， 样 条 
thin-plate，312 ” 茧 板 
Stability，672- 673 ”稳定 性 
Jyapunov's theorem，673 - 614 ”LIyapunovy 定理 
Subility-plasticitgy dilemma，4 ”稳定 性 - 可 塑性 困境 
Stagecoach problem，614 - 617，627 - 629 驿 车 问题 
State_ space model of recument networkk ，739 - 746 ”递归 
网 络 状态 空间 模型 
Suaiistical independence，495 ”统计 独立 
Statiatioal mechanics，546 - 548 ”统计 力学 
Stochastic mmachines rooted in statistical mechanics，S45 一 
595 ” 植 根 于 统计 力学 的 随机 机 器 
Storage capacity of a surface，261 - 262 ”曲面 的 存储 容 
量 
Stochastic approximation，135 ”随机 逼近 
Stmctural risk minimization，100 - 102 ”结构 风险 最 小 
化 
Sub Gaussian distibution，541 次 Causs 分 布 
Super Gaussian distibution，541 ” 超 Cauas 分 布 
Supervised learniog。 的 “有 监督 学 习 
了 训 -posed hypersurface reconatmuction problem，265 
- 266 ”如 不 适 定 的 曲面 重 构 问 题 
as oplimization problem，234- 245 如 最 优化 问题 
Suppor vector，321 ”支持 向 量 


奇异 值 分 解 





Suphort vector machine，318 ”支持 癌 量 机 
comparison with back-proprogation lcaming，338 -- 339 
与 反 向 传播 学 习 比 较 
optmum design，332 ”最 优 设计 
pattem recogmition，329 ”模式 识别 
regression，340 ”回归 
Subspace decomposition，403“ 子 空间 分 解 
上 和 确 界 
Snapse，6 ” 罕 触 
chemical synapse，6 ”化 学 突 触 
Synaptic cotvergence，16 ” 究 触 会 聚 
Synaptic divetgence，17 ” 突 触 散发 
System identifioation，120，659，776 - 779 
识 ， 系 统 识别 
input-output model，778 ~- 779 ”输入 输出 模型 
state-space model，776- 778 ”状态 空间 模型 
TappedLdelay-iine memorr，638 - 639” 抽 头 延迟 线性 
记忆 
TD-ganmon，631 
Temporal difference learning，63+ 时 间 差 分 学 习 
Temporal processing，635 - 663 ”时 间 过 程 
metwork structures for，640 ~ 643 网络 结 构 
Threahold funotion，12 ” 半 值 函数 
Tikhonor fanetional，268 Tikhonov 泛 函 
Tikhonov-Philips regularization，see Regularization theory 
Tikhonov-Phiips 正则 化 .参看 正则 化 理论 
Time，635 ”时间 
explicit mepresentation。635 。 显 式 表示 
impiicit representation，635 。 降 式 表示 
Time-delay neural netwokk，641 - 643 ”时 间 延 迟 神经 
网 络 
Time-frequency snalysis，795 时 频 分 析 
Timne-lagged feedforward network，636，659 时间 滞后 
前 镇 网 络 
disuihbuted，651 分 布 式 
focused，643 - 646 ”集中 式 
universal myopic mapping theorem，5646 - 647 ”通用 
近视 肌 射 定理 
Topographic maps，g& ”拓扑 映射 
Travelling sajesman problem，3597 - 598 ”旅行 商 问题 
shition using Hopfield model，723 - 724 使 用 
Hopteld 模型 的 解 


Supemun，91 
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Turing 机 
Cnit- delay operator、19 ”单位 延迟 操作 
TLmniversal approximalion theorem，208 - 209，229 通用 
逼近 定理 
Univereal myopic mapping theorem，646 - 647 ”通用 近 
视 映射 定理 
Unsupervised leaming，65 ”无 监督 学 习 
Value iteration，612- 6I7” 值 选 代 
Vanishing pgradients problem，773 ~ 776 ”消失 梯度 问题 
VC dimension, 由 -9%8 VC 维 
bound，97，110 界 
definiton，95 定义 
Vestihule _oeular reflex，5 前庭 视 沉 反 射 
Varonoi cel，466 。Voronai 单元 


Turng machine，748 


Yoiterra model，762 Volterra 模型 

eak leaming model，358。 弱 学 习 模 卉 

机 ierstmaas theorem，249 。 双 eierstrass 定理 
Weightrsharing，28，89 权 侦 共享 

Weighted noro，280 加权 范 数 

Wiiener filters，127 - 128 ”Wiener 滤 波 器 
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